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推荐 厅 
面 对 科 拉毛 点 ， 我 们 的 判断 与 选择 





EH 
微软 小 冰 之 父 
微软 《亚洲 ) 互联 网 工程 院 副 院 长 


在 近年 来 陆续 出 版 的 、 解 读 人 工 智能 技术 与 趋势 的 许多 书籍 中 ， 这 
是 一 本 不 可 多 得 的 好 书 。 它 的 阅读 过 程 令 人 愉悦 ， 涉 及 的 知识 深度 又 比 
较 恰 当 。 因 此 ， 即 使 是 不 具备 相关 领域 知识 背景 的 读者 ， 也 能 够 轻松 地 
读 完 它 。 人 们 完全 可 以 利用 “碎片 时 间 ” 来 研读 这 本 30 多 万 字 的 大 作 ， 
从 而 集中 了 解 到 与 人 工 智 能 相关 的 技术 分 支 、 组 织 人 物 与 重要 事件 。 在 
人 工 智 能 热度 很 高 的 当下 ， 这 本 书 的 价值 在 于 ， 帮 助 读 者 建立 一 种 相对 
贴近 事实 的 科学 观 。 

读者 可 以 把 这 本 书 当 作 一 本 有 关 人 工 智 能 的 简明 历史 来 看 待 。 人 工 
智能 是 科技 王冠 上 的 钻石 ， 而 深度 学 习 代 表 了 其 中 一 个 承上启下 的 重要 
阶段 。 深 度 学 习 脱 胎 于 科学 家 们 六 十 多 年 前 开始 的 人 工 智 能 研究 ， 其 自 
身 的 概念 形成 ， 到 落地 开花 ， 则 只 有 十 多 年 的 光景 。 与 过 去 相 比 ， 深 度 
学 习 极 大 地 推进 了 人 工 智能 各 个 分 支 课 题 的 发 展 速 度 ; 与 未 来 相 比 ， 我 
们 今天 所 取得 的 一 切 成果 ， 都 是 非常 粗糙 的 ， 注 定 会 被 更 好 的 成 果 取 
代 。 因 此 ， 了 解 深度 学 习 ， 就 如 同 站 在 一 个 关键 的 节点 上 向 时 间 河 流 的 
上 下 游 看 ， 一 览 无 余 。 

我 相信 ， 不 同 的 人 会 从 这 本 书 中 得 到 不 同 的 收获 。 总 体 而 言 ， 这 本 
书 有 助 于 在 我 们 心目 中 更 加 清晰 准确 地 绘制 人 工 智 能 的 未 来 图 景 。 从 某 


种 意义 上 说 ， 所 有 的 过 去 亦 都 昭示 了 未 来 ， 但 我 更 建议 读者 以 最 轻松 的 
心态 来 阅读 它 。 因 为 这 样 ， 能 够 让 读者 以 更 加 客观 公正 的 视角 去 检阅 人 
类 与 机 器 的 能 力 短 板 与 优 长 你 可 以 从 本 书 中 了 解 到 那些 令 人 惊讶 ， 
甚至 于 有 些 担 忧 的 科技 进展 ， 大 致 了 解 它们 背后 的 原理 。 这 展现 了 人 工 
智能 相对 于 人 类 而 言 的 单方 面 优势 。 另 一 方面 ， 你 也 能 看 到 许多 真实 事 
例 ， 反 映 了 人 工 智 能 相对 于 人 类 而 言 的 “笨拙”。 科 学 与 科学 幻想 泾 消 
分 明 。 在 现实 中 ， 这 种 “ 策 抽 ”的 情况 往往 更 加 普遍 。 这 些 事例 有 时 令 
人 有 丸 俊 不 禁 ， 它 恰恰 体现 了 我 们 人 类 的 大 脑 是 多 么 精妙 的 设计 。 

事实 上 ， 在 我 看 来 ， 当 下 最 令 人 往复 不 定 的 ， 并 不 是 人 工 智 能 有 多 
么 “强大 ”或 有 多 么 “ 策 揣 ”， 而 是 我 们 已 处 在 一 个 科技 的 扬 点 ， 需 要 
由 我 们 每 个 人 对 未 来 的 走向 做 出 抉择 。 这 是 一 个 非常 具有 现实 意义 的 话 
题 。 虽然 深度 学 习 是 这 个 拐点 的 主要 推动 力 之 一 ， 但 它 并 不 需要 为 我 们 
的 困扰 承担 贡 任 : 


。 选择 权 的 困扰 : 一 辆 无 人 驾驶 汽车 行驶 在 道路 上 ， 假 设 突然 面 
临 必然 要 发 生 的 车 神 ， 它 应 当 向 左 撞 向 一 个 无 境 的 老人 ， 还 是 向 右 撞 向 
一 个 无 辜 的 半年 ? 


。 决策 权 的 困扰 : 一 个 系统 可 以 基于 人 类 个 体 不 具备 的 广泛 即时 
的 大 数据 ， 用 任何 人 无 法 企及 的 速度 ， 迅 速 做 出 某 个 决策 。 这 样 的 洞察 
和 决策 力 ， 应 该 掌握 在 谁 的 手中 ? 


。 工作 权 的 困扰 : 一 项 基于 人 工 智 能 的 技术 可 以 比 人 类 以 更 好 的 
质量 和 速度 去 完成 某 项 生产 。 这 项 技术 应 该 归属 于 工厂 主 来 代替 工人 ， 
还 是 应 该 归属 于 工人 来 帮助 工厂 主 更 好 地 完成 工作 ? 前 者 会 带 来 失业 ， 
而 后 者 有 望 带 来 更 高 的 工作 效率 。 


。 社会 层面 的 困扰 : 一 个 面向 情感 的 人 工 智 能 机 器 人 帮助 一 个 人 
解决 孤单 ， 却 使 他 主动 减少 了 与 他 人 的 社交 沟通 。 这 种 陪伴 究竟 是 在 帮 
他 解决 问题 ， 还 是 制造 了 更 多 的 问题 ? 


。 技术 混用 的 困扰 : 一 项 技术 可 以 帮助 任何 人 打造 与 他 们 高 度 相 





似 的 语音 ， 制 造 出 来 的 声音 ， 令 他 的 家 人 也 难 辩 真 假 。 这 样 的 技术 会 不 
会 被 别有用心 的 人 用 于 犯罪 ， 例 如 诈骗 电话 ? 


不 知 不 觉 间 ， 这 些 看 似 遂 远 的 事 ， 突 然 间 已 变 成 我 们 必须 要 面 对 的 
现实 情况 ， 而 我 们 也 已 经 在 上 述 一 些 场景 中 做 出 了 初步 的 抉择 。 其 中 一 
个 关键 因素 是 ， 人 们 常常 对 人 工 智 能 的 “智商 ”印象 深刻 ， 但 往往 忽略 
T: 人 工 智能 系统 化 的 优势 之 一 在 于 “大 规模 的 并 发 ”。 因 此 ， 任 何 一 
种 以 上 技术 应 用 的 场景 ， 只 要 来 以 巨大 的 人 口 ， 都 会 带 来 很 大 的 影响 。 
相对 而 言 ， 在 围棋 游戏 中 赢 过 人 类 ， 其 实 是 最 不 需要 担忧 的 了 。 


在 微软 ， RE aud. 及 伦理 相关 的 组 织 ， 力 图 在 当 
前 的 框架 内 去 发 现 尽 量 多 的 问题 ， 能 在 早期 就 避免 问题 的 发 生 。 微 
软 在 人 工 智能 领 因此 我 们 做 过 的 抉择 也 相对 
较 多 。 这 些 抉择 往往 决定 了 我 们 在 有 能 力 的 情况 下 ,主动 放弃 去 做 什 
Ao 


这 意味 着 克制 与 数 刁 之 心 。 例 如 : 微软 小 冰 在 两 年 前 推出 拟人 的 全 
双 工 语音 电话 技术 (Full Duplex) 时 ， 我 们 就 制定 了 该 产品 的 伦理 规 
则 ， 不 允许 在 用 户 不 知情 的 情况 下 ， 让 小 冰 伪 装 成 真人 去 拨打 电话 。 我 
们 也 不 使 用 微软 小 冰 的 技术 去 从 事 呼叫 中 心 的 外 呼 业务 ， 因 为 它 存在 被 
滥用 为 垃圾 广告 电话 的 风险 一 一 尽管 这 些 往往 意味 着 巨大 的 商业 价值 。 
今天 ， 在 中 国 、 美 国 、 日 本 、 印 度 和 印度 尼 西 亚 ， 微 软 小 冰 拥 有 近 7 亿 
人 类 用 户 ， 如 果 她 在 对 话 的 时 候 努力 诱导 人 们 去 购买 某 种 商品 ， 显 然 会 
带 来 可 观 的 收入 预期 。 但 谁 会 愿意 和 一 个 一 心 想 着 如 何 诱 手 你 买 东 西 的 
人 成 为 知已 呢 ? 


这 种 克制 ， 不 仅仅 是 一 两 家 企业 的 责任 。 它 依赖 于 整个 社会 对 人 工 
智能 ， 特 别 是 深度 学 习 相 关 技 术 的 了 解 。 对 技术 的 了 解 越 普遍 ， 也 就 越 
能 帮助 企业 更 好 地 运用 手中 的 技术 ， 进 而 帮助 我 们 每 一 个 人 获得 更 好 的 
生活 ， 享 受 人 工 智 能 为 我 们 带 来 的 价值 。 


在 我 看 来 ， 这 就 是 这 本 书 所 具有 的 现实 
一 本 面向 未 来 的 历史 书 。 它 揭示 了 人 工 智能 


意义 。 它 并 非 教 科 书 ， 而 是 
有 望 给 世界 、 给 人 类 带 来 的 


巨大 改变 ， 远 超 我 们 现在 所 能 想象 到 的 全 双 工 语音 、 人 脸 识 别 、 情 感 计 
算 其 至 是 自动 驾驶 。 换 句 话 说 ， 基 于 我 们 现在 的 技术 和 产品 水 平 ， 相 信 
许多 人 已 能 在 脑海 中 比较 清晰 地 勾勒 出 ， 自 己 在 马路 上 与 一 辆 并 没有 司 
机 驾驶 的 汽车 相遇 的 场景 。 但 与 人 工 智能 即将 展现 的 伟大 图 景 相 比 ， 这 
些 都 不 值 一 提 。 


中 文 版 序 
人 工 乔 能 会 放大 认 知 能 力 


60 年 前 ， 数 字 计 算 机 在 人 工 智 能 (A1) KAFA, RARE 
命 的 种 子 也 在 那 时 被 播种 开 来 。 深 度 学 习 是 数据 密集 型 的 ， 通 过 实例 来 
学 习 如 何 解 决 难题 ， 比 如 视觉 对 象 识 别 、 语 音 识别 和 自然 语言 翻译 等 。 
人 类 从 婴儿 时 期 睁 开眼 睛 的 那个 时 刻 起 ， 就 开始 从 经 验 中 学 习 ， 到 后 来 
获得 语言 、 运 动 、 玩 电子 游戏 等 最 高 程度 的 能 力 ; 相 比 之 下 ， 传 统 的 劳 
动 密集 型 人 工 智 能 方法 是 基于 编写 不 同 的 复杂 计算 机 程序 来 解决 每 个 问 
题 。 

本 书 讲述 了 20 世 纪 80 年 代 一 小 群 研究 人 员 的 故事 ， 他 们 证 明了 基于 
大 脑 式 计算 的 全 新 方法 是 可 行 的 ， 从 而 为 深度 学 习 的 发 展 黄 定 了 基础 。 

当时 已 有 的 人 工 智 能 学 术 研 究 中 心 都 投注 于 编程 ， 并 且 都 具有 强大 
的 实力 ， 但 却 无 法 解决 上 述 任何 难题 。 又 过 了 30 年 ， 计 算 机 才 变 得 足够 
快 ， 也 出 现 了 大 量 可 供 利 用 的 数据 。 这 一 变化 让 深度 学 习 得 以 克服 这 些 
难题 ， 并 在 今天 的 人 工 智 能 领域 占据 主导 地 位 。 其 他 领域 同样 可 以 借鉴 
这 一 经 验 教 训 ， 例 如 语言 学 ， 曾 经 普遍 持 有 的 既定 信念 阻碍 了 该 领域 束 
整 一 代 研 究 者 的 进步 。 深 度 学 习 改 变 了 语言 学 ， 使 其 发 展 基 于 来 自 现 实 
世界 的 数据 ， 而 非 无 法 捕捉 这 些 复 杂 性 的 理想 世界 的 数据 。 

回溯 历史 ， 人 工 智 能 诞生 的 秘密 可 以 在 自然 界 中 找到 答案 ， 我 们 对 
此 并 不 应 该 感到 惊讶 。 大 自然 有 数 亿 年 的 时 间 通 过 进化 找到 解决 方案 ， 
对 这 些 解决 方案 进行 逆向 工程 能 够 让 我 们 爱 益 菲 浅 。 了 解 大 脑 如 何 运转 
是 21 世 纪 最 大 的 挑战 之 一 。 大 自然 发 明了 许多 经 受 住 了 时 间 考 验 的 算 


法 。 理 解 这 一 挑战 并 投资 于 大 脑 研 究 的 国家 将 获得 巨大 的 回报 ， 远 远 超 
出 20 世 纪 物 理学 和 化 学 研究 的 突破 所 产生 的 影响 ， 这 些 影响 已 经 极 大 地 
丰富 了 我 们 的 生活 。 美 国 已 经 为 “BRAIN 计 划 ” GEL fj Brain 
Research through Advancing Innovative Neurotechnologies, 
即 “ 通 过 推动 创新 型 神经 技术 开展 大 脑 研究 计划 ”) 注资 50 亿 美元 ， 欧 
洲 、 日 本 和 许多 其 他 国家 或 地 区 也 在 进行 类 似 的 投资 。 中 国正 在 投资 当 
前 的 人 工 智能 技术 ， 但 它 是 否 拥有 投资 大 脑 研究 的 远见 ， 年 青 一 代 又 是 
否 会 接受 这 一 挑战 呢 ? 

深度 学 习 对 社会 和 个 人 生活 将 产生 深远 的 影响 ， 其 影响 方式 也 是 难 
以 想象 的 。 在 本 书 中 ， 我 提出 了 一 个 观点 ， 即 你 无 须 担 心 人 工 智能 将 接 
管 你 的 工作 。 人 工 智能 会 让 你 更 聪明 ， 让 你 所 能 实现 的 成 就 达到 新 的 高 
度 。 就 像 工业 单 命 时 期 蒸汽 机 放大 了 物理 能 力 一 样 ， 人 工 智能 也 会 放大 
认 知 能 力 。 我 们 刚刚 步 入 一 个 新 的 时 代 一 一 信息 时 代 。 我 们 进入 的 新 世 
界 不 仅 会 使 我 们 变 得 更 聪明 ， 还 会 让 我 们 更 清楚 地 认识 自己 ， 从 而 回答 
古代 的 哲学 先驱 们 最 早 提出 的 一 系列 问题 。 对 于 自身 ， 我 们 又 会 得 出 哪 


些 深刻 的 见解 呢 ? 
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如 果 你 在 连接 了 互联 网 的 安 齐 手 机 或 谷歌 翻译 平台 上 使 用 语音 识别 
功能 ， 你 其 实 是 在 与 经 过 深度 学 习 训 练 的 神经 网 络 [ 什 进行 交流 。 过 去 
几 年 ， 深 度 学 习 为 谷歌 带 来 了 丰厚 的 利润 ， 足 以 支付 Google X 实 验 室 中 
所 有 未 来 主义 项 目的 成 本 ， 包 括 自动 驾驶 汽车 、 谷 歌 眼 镜 和 谷歌 大 
脑 。J 红 谷歌 是 最 早 拥抱 深度 学 习 的 互联 网 公司 之 一 ， 并 在 2013 年 聘请 
了 深度 学 习 之 父 杰 弗 里 。 辛 顿 (Geoffrey Hinton) ， 其 他 公司 也 在 元 
相 追 赶 它 的 脚步 。 


人 工 智 能 近期 取得 的 进展 得 益 于 大 脑 逆 向 工程 。 分 层 神经 网 络 模型 
的 学 习 算 法 受到 了 神经 元 之 间 交 流 方式 的 启发 ， 并 依据 经 验 进行 了 改 
进 。 在 网 络 内 部 ， 世 界 的 复杂 性 转变 为 五 彩 缤纷 的 内 部 活动 模式 ， 这 些 
模式 是 智能 的 元 素 。 我 在 20 世 纪 80 年 代 研 究 的 网 络 模型 很 小 ， 相 比 之 
下 ， 现 在 的 模型 有 数 百 万 个 人 造 神经 元 ， 深 度 达 到 了 几 十 层 。 持 久 的 努 
力 、 大 数据 和 更 强大 的 计算 机 运算 能 力 使 得 深度 学 习 在 人 工 智能 领域 一 
些 最 困难 的 问题 上 取得 了 重大 突破 。 


我 们 并 不 善于 想象 新 技术 对 未 来 的 影响 。 谁 能 在 1990 年 互联 网 刚 开 
始 商业 化 的 过 程 中 预见 到 它 对 音乐 产业 的 影响 ， 以 及 对 出 租车 业务 、 政 
治 运动 ， 还 有 我 们 日 常生 活 几 乎 所 有 方面 的 影响 ? 同样 ， 我 们 也 未 能 预 
见 到 电脑 会 如 何 改变 我 们 的 生活 。1BM (国际 商业 机 器 公司 ) 总 裁 托 马 
斯 。 沃 森 (Thomas J. Watson) 在 1943 年 说 的 一 名 话 后 来 被 广泛 引 
用 : “我 觉得 全 世界 也 许 能 卖 出 5 台 计 算 机 吧 。”[ 引 很 难 想象 一 个 新 发 


明 都 有 哪些 用 途 ， 其 发 明 人 对 这 些 用 途 的 预测 也 不 见得 比 其 他 人 更 准 
确 。 在 乌托邦 和 世界 末日 的 两 极 之 间 ， 有 很 多 关于 深度 学 习 和 人 工 智能 
应 用 场景 的 预测 空间 ， 但 即使 是 最 具 想 象 力 的 科幻 小 说 作家 也 不 大 可 能 
猜 出 它们 最 终 会 产生 什么 样 的 影响 


HMM re 并 思索 了 近 几 十 
年 来 人 工 智 能 领域 的 显著 变化 之 后 写 出 来 的 。 这 本 书 讲 了 一 个 一 小 群 研 
究 人 员 挑 战 A1 研 究 建 制 派 的 故事 ， 这 些 建制 派 在 当时 拥有 更 充足 的 资金 
支持 ， 并 被 看 作 “ 唯 一 的 主导 力量 ”， 他 们 大 大 低估 了 这 些 问 题 的 难 
度 ， 并 且 所 依赖 的 对 智能 的 直觉 ， 后 来 被 证 明 是 有 误导 性 的 。 


地 球 上 的 生命 充满 了 无 数 奥秘 ， 但 最 有 具 挑 战 性 的 也 许 是 智能 的 本 
质 。 自 然 界 充斥 着 各 种 形式 的 智能 ， 从 微小 的 细菌 到 复杂 的 人 类 智能 
每 种 智能 都 适应 了 它 在 自然 界 中 的 位 置 。 人 工 智 能 中 将 以 多 种 形式 出 
现 ， 并 在 智能 族谱 中 占据 特殊 的 位 置 。 随 着 基于 深度 神经 网 络 的 机 器 每 

渐 成 就 ， 它 可 以 为 生物 智能 提供 一 个 新 的 概念 框架 

这 是 一 本 关于 深度 学 习 的 过 去 、 现 在 和 未 来 的 指南 。 不 过 本 书 并 不 
是 对 该 领域 发 展 历 史 的 全 面 梳理 ， 而 是 记录 了 这 一 领域 重要 概念 的 进步 
及 其 背后 研究 群体 的 个 人 观点 。 人 类 的 记忆 并 不 可 靠 ， 对 故事 的 每 次 复 
kee en 这 个 过 程 叫 作 “ 重 整 记 忆 ”。 这 本 书 中 的 故事 

延续 了 40 多 年 ， 尽 管 有 些 对 我 来 说 依然 历历 在 目 ， 就 像 昨 天 刚 发 生 的 一 
样 ， 但 我 很 清楚 ， 那 些 故事 在 我 的 记忆 中 不 断 被 复述 时 ， 有 些 细节 已 经 
悄悄 地 被 改写 了 。 


本 书 的 第 一 部 分 提供 了 深度 学 习 的 动机 和 理解 其 起 源 所 需 的 背景 信 
息 ; 第 二 部 分 解释 了 几 种 不 同类 型 的 神经 网 络 架 构 中 的 学 习 算 法 ; 第 三 
kd 小 则 探讨 了 深度 学 习 对 我 们 当下 生活 产生 的 影响 ， 以 及 未 来 若干 年 可 

能 产生 的 影响 。 然 而 ， 正 如 纽约 扬 基 队 的 哲人 尤 吉 。 贝 拉 (Yogi 
ins Le 经 说 过 的 那样 “做 出 预测 很 难 ， 特 别 是 对 未 来 的 预 

测 。” 本 书 前 八 章 的 内 容 交 代 了 故事 的 技术 背景 ; 三 个 部 分 开头 的 要 事 
年 表 记 录 了 与 这 个 故事 有 关 的 事件 ， 时 间 跨 度 超 过 了 60 年 。 
































[1] 严格 地 说 ， 神 经 网 络 是 一 个 生物 实体 ， 机 器 学 习 中 使 用 的 模型 是 人 工 神 经 网 络 一 一 
ANNies。 但 知 无 另行 说 明 ， 本 书 中 的 “神经 网 络 ?默认 代 指 人 工 神 经 网 络 。 

[2] Conor Dougherty, “Astro Teller, Google's ‘Captain of Moonshots,’ on Making Profits at 
Google X," New York Times, February 6, 2015, https://bits.blogs.nytimes.com/2015/02/16/googles- 
captain-of-moonshots-on-making-profits-at-google-x. ”深度 学 习 将 运行 数据 中 心 的 电力 成 本 降低 了 
159%6， 每 年 可 以 节省 数 亿 美元 。 


[3] 尽管 沃 森 在 1943 做 出 的 估计 从 未 得 到 过 确认 ， 但 它 反映 了 当时 的 人 们 普遍 无 法 想象 电脑 
的 未 来 。 


[4] 太平 洋 西北 地 区 是 指 美 国 西北 部 地 区 和 加 拿 大 的 西南 部 地 区 。 一 一 编者 注 












































要 事 年 表 


1956 年 


达 特 茂 斯 人 工 智能 夏季 研究 计划 (The Dartmouth Artificial 
Intelligence Summer Research Project) 开启 了 人 工人 智能 领域 的 研 
究 ， 并 鼓 兽 了 一 代 科 学 家 探寻 可 以 媲美 人 类 智慧 的 信息 技术 的 潜力 。 


1962 年 


弗兰克 。 罗 森 布 拉 特 (Frank Rosenblatt) 出 版 了 《神经 动力 学 
原理 : 感知 器 和 大 脑 机 制 的 理论 》(Principles of Neurodynamics: 
Perceptrons and the Theory of Brain Mechanisms)， 该 书 介绍 了 
一 种 应 用 于 具有 单 层 可 变 权 重 的 神经 网 络 模型 的 学 习 算 法 ， 该 算法 是 
今天 的 深度 神经 网 络 模 型 的 学 习 算 法 的 前 身 。 

1962 年 

大 卫 。 休 伯 尔 (David Hubel) 和 托 斯 坦 。 威 泽 尔 (Torsten 
Wiesel) 发 表 了 《 猫 的 视觉 皮质 中 的 感受 野 、 双 目 互动 和 功能 架构 
(Receptive Fields,Binocular Interaction and Functional 
Architecture in the Cat’ s Visual Cortex) 一 文 ， 第 一 次 报道 了 
由 微 电 极 记录 的 单个 神经 元 的 响应 特性 。 深 度 学 习 网 络 的 架构 类 似 于 
视觉 皮质 的 层次 结构 。 


1969 年 


马 文 。 明 斯 基 (Marvin Minsky) HÆR °. HŽ 4 (Seymour 
Papert) 出 版 了 《感知 器 》 (Perceptrons), ， 该 书 指 出 了 单个 人 造 神 
经 元 的 计算 极限 ， 标 志 着 神经 网 络 领 域 寒冬 的 到 来 。 


1979 年 


ARE $f Eii e xii (James Anderson) 在 加 州 拉 荷 
亚 市 (La Jolla) 举办 了 “关联 记忆 的 并 行 模 型 ” (Parallel 
Models of Associative Memory) 研讨 会 ， 把 新 一 代 的 神经 网 络 先驱 
们 聚集 到 了 一 起 ， 同 时 也 推动 辛 顿 和 实德 森 在 1981 年 发 表 了 同名 系列 
研究 著作 。 

1986 年 

第 一 届 神 经 信息 处 理 系统 大 会 (Neural Information 
Processing Systems， ET A RNIPSILL) 及 研讨 会 在 美国 丹佛 科技 
中 心 举 办 ， 该 会 议 吸 引 了 很 多 不 同 领域 的 研究 人 员 。 


[1] NIPS 现 通称 为 NeurIPS。 一 一 译 者 注 
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子 。 如 今 看 来 ， 这 人 句 话 要 改写 了 。 计 算 机 不 仅 能 和 大 多 数 成 年 人 一 样 识 
别 图 片 中 的 物体 ， 在 杞 路 上 驾驶 汽车 的 安全 性 还 局 过 16 岁 的 青少年 。 更 
神奇 的 是 ， 如 今 的 计算 机 不 再 是 被 动 按 照 指令 识别 和 驾驶 ， 而 是 像 目 然 
界 的 生命 由 数 百 万 年 前 开始 进化 那样 ， 目 主 地 从 经 验 中 学 习 。 是 数据 的 
井喷 促成 了 这 一 技术 进步 。 如 宁 说 数据 是 新 时 代 的 石油 ， 那 么 学 习 算 法 
就 是 从 中 提取 信息 的 炼油 厂 ; 信息 积累 成 知识 ;， 知识 深 化 成 理解 ， 理 解 
演变 为 智慧 。 欢 迎 来 到 深度 学 习 的 新 世界 。 贡 | 

深度 学 习 是 机 器 学 习 的 一 个 分 文 ， 它 根植 于 数学 、 计 算 机 科学 和 神 
经 科学 。 深 度 网 络 从 数据 中 学 习 ， 束 像 婴 儿 了 解 周围 世界 那样 ， 从 睁 开 
眼睛 开始 ， 慢 慢 获得 丢 双 新 环境 所 需 的 拉 能 。 深 度 学 习 的 起 源 可 以 退 济 
到 20 世 纪 50 年 代 人 工 智 能 的 诞生 。 关 于 如 何 构建 人 工 智 能 ， 当 时 存在 两 
种 不 同 的 观点 : 一 种 观点 主张 基于 逻辑 和 计算 机 程序 ， 曾 主宰 人 工 智 能 
的 研究 和 应 用 数 十 年 ， 男 一 种 观点 则 主张 直接 从 数据 中 学 习 ， 经 历 了 更 
长 时 间 的 摸索 才 逐 渐 成 熟 。 


20 世 纪 ， 计 算 机 技术 还 不 够 成 熟 ， 而 且 按 照 现在 的 标准 ， 数 据 存 储 
成 本 十 分 高 唱 ， 用 馆 辑 程序 来 解决 问题 更 加 高 效 。 熟 练 的 程序 员 需 要 为 
每 个 不 同 的 问题 编写 不 同 的 程序 ， 问 题 越 大 ， 相 应 的 程序 也 就 越 复 杂 。 
如 今 ， 计 算 机 能 力 日 趋 强 大 ， 数 据 资源 也 变 得 庞大 且 丰 富 ， 使 用 学 习 算 
法 解决 问题 比 以 前 更 快 、 更 准确 ， 也 更 高 效 。 此 外 ， 同 样 的 学 习 算法 还 
能 用 来 解决 许多 不 同 的 难题 ， 这 远 比 为 每 个 问题 编写 不 同 的 程序 更 加 节 
省 人 力 。 

















汽车 新 生态 : 无 人 驾驶 将 全 面 走 入 人 们 生活 


在 2005 年 美国 国防 部 高 级 研究 计划 局 (以 下 简称 DARPA) 举办 的 
目 动 敬 驶 挑战 赛 中 ， 一 辆 由 斯 坦 福 大 学 寨 巴 斯 带 安 : 特 隆 (Sebastian 
Thun) 实验 室 开 发 的 自动 驾驶 汽车 Stanley 最 终 赢 得 了 200 万 美元 现金 大 
X WAER- 。 团 队 利 用 了 机 器 学 习 技 术 教 它 如 何 自主 地 在 加 利 福 尼 
亚 州 的 沙漠 中 穿行 。132 英 里 的 赛 道 中 有 若干 狭窄 的 隧道 和 急 转 弯 ， 还 
包括 啤酒 瓶 道 (Beer Bottle Pass) , ixzé— Eig TUER. PA) 
别 是 碎 石 遍布 的 陡坡 和 断 壁 〈 见 图 1-2) 。 特 隆 并 没有 遵循 传统 的 AI 方 
法 ， 即 通过 编写 计算 机 程序 来 应 付 各 种 偶发 事件 ， 而 是 在 沙漠 中 构 驶 
Stanley， 让 汽车 根据 视觉 和 距离 传感器 的 感应 输入 ， 学 习 如 何 像 人 一 样 
725 E, 

















图 全 -1 FEDT 特 隆 及 其 团队 的 ES i583) 
驶 挑战 赛 。 这 项 突破 引发 了 交通 界 的 技术 革命 。 图 片 来 源 : 塞 巴 斯 蒂 安 。 特 隆 。 





p. 








图 1-2 啤酒 瓶 道 。 这 上 段 极 具 挑 战 性 的 地 形 位 于 2005 年 DARPA 自 动 驾 驶 挑战 赛 的 末 段 。 该 赛事 要 求 
汽车 在 无 人 辅助 的 情况 下 驶 过 132 英 里 的 沙漠 荒 路 。 图 中 远 处 的 一 辆 卡车 正 要 爬 坡 。 图 片 来 源 : 
DARPA。 








特 隆 后 来 参与 创立 了 高 科技 项 目 重点 实验 室 Google X， 并 开始 了 进 
一 步 研究 自动 要 驶 汽车 技术 的 计划 。 和 谷歌 的 自动 轨 驶 汽车 自 此 开始 ， 在 
旧金山 湾 区 累积 了 350 万 英里 的 车 程 。 优 步 (Uber) 已 经 在 匹兹堡 投放 
了 一 批 自 动 萄 驶 汽车 。 苹 果 也 步 入 自动 敬 驶 领域 ， 以 扩大 其 操作 系统 控 
制 的 产品 郊 围 ， 并 希望 能 够 再 现 它 在 手机 市 场 上 的 辉 焊 。 汽 车 制造 商 们 
杀 眼 看 见 一 个 100 年 来 从 未 改变 的 行业 在 他 们 眼前 发 生 了 转型 ， 也 开始 
奋起 直 授 。 通 用 汽车 公司 以 10 亿 美元 的 价格 并 购 了 开发 无 人 构 驶 技术 的 
硅谷 创业 公司 Cruise Automation， 并 在 2017 年 投入 了 额外 的 6 亿美 元 用 于 
研发 。" 人 2017 和 年， 英特尔 以 153 亿 美元 的 价格 收购 了 Mobileye， 它 是 一 
家 专门 为 自动 驾驶 汽车 研发 传感器 和 计算 机 视觉 的 公司 。 在 价值 数 万 亿 
美元 的 交通 运输 领域 ， 参 与 的 各 方 都 下 了 极 高 的 赌注 。 


目 动 驾驶 汽车 不 久 将 扰乱 数 百 万 卡车 司机 和 出 租车 司机 的 生计 。 最 














终 ， 如 果 一 辆 自动 驾驶 汽车 能 够 在 一 分 钟 内 出 现 ， 将 你 安全 带 到 目的 地 
且 无 须 停车 ， 在 城市 拥有 汽车 就 显得 不 那么 必要 了 。 今 天 ， 汽 车 行驶 时 
间 平 均 仅 占 49%， 这 意味 着 它 其 余 96% 的 时 间 都 需要 停放 在 某 个 地 方 。 由 
于 自动 驾驶 汽车 可 以 在 城市 外 围 维修 和 停放 ， 城 市 中 被 大 量 停车 场 占用 
的 空间 得 以 被 重新 高 效 利 用 。 城 市 规划 者 已 经 开始 考虑 让 停车 场 变 成 公 
园 了 。 忆 1 街 边 的 停车 道 可 以 成 为 真正 的 自行 车 道 。 其 他 汽车 相关 行业 
也 将 受到 影响 ， 包 括 汽车 保险 业 和 修理 厂 。 超 速 和 停车 罚单 将 不 复 存 
在 。 由 醉 驾 和 疲劳 驾驶 导致 的 交通 事故 死亡 人 数 也 会 相应 减少 。 通 勤 浪 
费 的 时 间 也 将 被 节省 下 来 做 其 他 事情 。 根 据 2014 年 的 美国 人 口 普 查 数 
据 ， SoU i ah ig eal a aaa 分 钟 ， 全 年 总 计 296 亿 小 
时 。 这 惊人 的 340 万 年 的 时 间 本 可 以 在 人 生 中 得 到 更 好 的 利用 。 区 自动 
驾驶 汽车 会 使 公路 通行 能 力 翻 两 番 。 辐 而且， 一 旦 大 规模 投入 使 用 ， 
没有 方向 盘 、 可 以 自己 开 回 家 的 自动 驾驶 汽车 还 会 让 大 规模 汽车 盗窃 行 
为 销声匿迹 。 虽 然 目前 自动 驾驶 汽车 仍 面临 很 多 监管 和 法 律 层 面 的 障 
碍 ， 但 这 一 技术 一 旦 开始 普及 ， 我 们 就 将 迎 来 一 个 轿 新 的 世界 。 可 以 预 
见 的 是 ， 卡 车 大 概 会 在 10 年 内 率先 实现 自动 驾驶 ， 出 租车 要 花 上 15 年 ， 
而 15 到 25 年 后 ， 客 运 无 人 车 将 全 面 走 入 人 们 的 生活 。 

汽车 在 人 类 社会 中 的 标志 性 地 位 将 以 我 们 无 法 想象 的 方式 发 生变 
化 ， 一 种 新 的 汽车 生态 也 将 应 运 而 生 。 正 如 100 多 年 前 汽车 的 出 现 创造 
了 许多 新 的 行业 和 就 业 机 会 ， 围 绕 着 自动 驾驶 汽车 的 发 展 ， 也 出 现 了 一 

个 快速 增长 的 生态 系统 。 从 谷歌 独立 出 来 的 自动 驾驶 公司 Waymo，8 年 
dr uut niue :测试 场所 。 
该 场所 位 于 一 个 占 地 91 英 亩 的 仿造 小 镇 ， 其 中 还 设计 了 骑 自行 车 的 * 演 
员 ” 和 假 的 汽车 事故 。[ 印 其 目的 是 扩大 训练 数据 集 以 包含 特殊 和 不 常见 
的 情况 〈 也 叫 边 缘 情 况 ) 。 公 路 上 罕见 的 驾驶 事件 经 常会 导致 事故 。 自 
动 驾驶 汽车 的 不 同 之 处 就 在 于 ， 当 一 辆 汽车 遇 到 罕见 事件 时 ， 相 应 的 学 
习 体 验 会 被 传递 给 所 有 其 他 自动 驾驶 汽车 ， 这 是 一 种 集体 智能 。 其 他 自 
动 驾驶 汽车 公司 也 在 建造 许多 类 似 的 测试 设施 。 这 些 举 措 创造 了 以 前 并 
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自动 驾驶 汽车 仅 是 信息 技术 推动 经 济 发 生 重大 转变 的 一 个 最 明显 的 
体现 。 网 络 上 的 信息 流 就 像 城市 管道 里 的 水 流 。 信 息 在 谷歌 、 亚 马 逊 、 
微软 和 其 他 IT 公司 的 大 型 数据 中 心 聚 集 。 这 些 数据 中 心 需要 耗费 大 量 电 
力 ， 因 此 通 第 建 在 水 电站 附近 ， 并 利用 河水 来 冷却 信息 流 所 产生 的 大 量 
热量 。2013 年 ， 美 国 的 数据 中 心 消耗 了 1000 万 兆 瓦 的 电量 ， 相 当 于 34 个 
大 型 电厂 产生 的 电力 。[ 引 但 是 目前 对 经 济 影响 更 大 的 是 如 何 使 用 这 些 
言 轧 。 从 原始 数据 中 提取 出 的 信息 被 转化 为 关于 人 和 事 的 知识 : 我 们 做 
什么 ， 我 们 想 要 什么 ， 我 们 是 谁 。 计 算 机 驱动 的 设备 也 在 越 来 越 多 地 利 
用 这 些 知 识 与 我 们 进行 口头 上 的 交流 。 与 大 脑 之 外 、 书 本 之 中 的 被 动 知 
识 不 同 ， 储 存在 云 中 的 知识 是 一 种 外 部 智能 ， 并 且 正 在 成 为 人 们 生活 中 
BUE. TEER Ap. DI 








目 然 语 言 翻译 :从 语言 到 句子 的 飞跃 


如 今 ， 谷 歌 在 超过 100 种 服务 中 使 用 了 深度 学 习 ， 包 括 街景 视图 
(Street View) 、 收 件 箱 智 能 回复 (Inbox Smart Reply) 和 语音 搜索 。 
几 年 前 ， 谷 歌 的 工程 师 意 识 到 他 们 需要 将 这 些 计 算 密 集 型 应 用 扩展 到 云 
端 。 他 们 开始 着 手 设计 一 种 用 于 深度 学 习 的 专用 芯片， 并 巧妙 地 设计 了 
可 以 插入 数据 中 心机 架 中 的 硬盘 插 横 的 电路 板 。 人 谷歌 的 张 量 处 理 单 元 
(TPU) 现在 已 配置 在 过 布 全 球 的 服务 器 上 ， 让 深度 学 习 应 用 程序 的 性 
能 得 到 了 大 幅 改 进 。 

深度 学 习 快 速 改变 格局 的 一 个 例子 是 它 对 语言 翻译 的 影响 。 语 言 翻 
译 是 人 工 智 能 的 一 只 圣杯 ， 因 为 它 依 赖 于 理解 句子 的 能 力 。 谷 歌 最 近 推 
出 了 基于 深度 学 习 的 最 新 版 谷歌 翻译 (Google Translate) ， 代 表 了 自然 
语言 翻译 质量 的 重大 飞跃 。 几 平一 夜 之 间 ， 语 言 翻译 就 从 零散 杂乱 的 拼 

















凑 短 语 ， 升 级 到 了 语意 完整 的 句子 〈 见 图 1-3) 。 之 前 的 计算 机 方法 搜 
索 的 是 可 以 被 一 并 翻译 的 词汇 组 合 ， 但 深度 学 习 会 在 整个 句子 中 寻找 词 
汇 之 间 的 依赖 关系 。 











图 1-3 手机 上 的 谷歌 翻译 应 用 可 以 将 日 语文 字 和 菜单 即时 译 成 英文 。 这 一 功能 对 于 在 日 本 如 何 
按照 指示 牌 来 车 尤为 重要 。 





得 知 谷歌 翻 译 获得 了 巨大 进步 的 消息 后 ，2016 年 11 月 18 日 ， 东 京 大 
学 的 唇 本 纯 一 〈Jun Rekimoto) 测试 了 这 个 新 系统 。 他 把 欧 内 斯 特 : 海 明 
威 的 小 说 《气力 马扎 罗 的 雪 》 开 头 的 一 段 话 翻译 成 了 日 文 ， 然 后 再 把 这 
段 日 文 翻译 成 英文 ， 结 果 如 下 〔〈 猜 猜 哪 个 是 海明威 的 原作 ) : 





1. Kilimanjaro is a snow-covered mountain 19,710 feet 
high, and is said to be the highest mountain in Africa. Its 


western summit is called the Masai “Ngaje Ngai,” the 
House of God. Close to the western summit there is the 
dried and frozen carcass of a leopard. No one has explained 


what the leopard was seeking at that altitude. 110] 


2. Kilimanjaro is a mountain of 19,710 feet covered 
with snow and is said to be the highest mountain in Africa. 
The summit of the west is called “Ngaje Ngai" in Masai, 
the house of God. Near the top of the west there is a dry 
and frozen dead body of leopard. No one has ever explained 


what leopard wanted at that altitude. 1111 [12] 





海明威 的 原作 是 第 一 段 。 


下 一 步 工作 是 训练 更 大 规模 的 深度 学 习 网 络 ， 针 对 段落 来 提高 句子 
间 的 连贯 性 。 文 字 背 后 都 有 悠久 的 文化 历史 。 俄 裔 作家 和 英文 小 说 家 ， 
《 洛 丽 塔 》 一 书 的 作者 弗 拉 基 米尔 : 纳 博 科 夫 (Vladimir Nabokov) 曾经 
得 出 结论 ， 在 不 同 语言 之 间 翻 译 诗歌 是 不 可 能 的 。 他 将 亚历山大 . 普 希 
金 (Aleksandr Pushkin〉 的 诗 体 小 说 《 叶 表 盖 尼 : 奥 涅 金 》 (Eugene 
Onegin) 直译 成 了 灵 文 ， 并 对 这 些许 文 的 文化 背景 做 了 解释 性 脚注 ， 以 
此 论证 他 的 观点 。 呈 站 或 许 谷歌 翻译 终 有 一 天 能 够 通过 整合 莎士比亚 的 
所 有 诗歌 来 翻译 他 的 作品 。L4 














语音 识别 : 实时 路 文化 交流 不 再 遥远 





人 工 智能 的 另 一 只 圣杯 是 语音 识别 。 不 久之 前 ， 计 算 机 的 独立 语音 
识别 应 用 领域 还 很 有 限 ， 如 机 票 预订 。 而 如 今 ， 限 制 已 不 复 存 在 。2012 
年 ， 一 名 来 自 多 伦 多 大 学 的 实习 生 在 微软 研究 院 CMicrosoft Research) 
的 一 个 夏季 研究 项 目 中 ， 让 微软 的 语音 识别 系统 性 能 得 到 了 显著 的 提升 














(图 1-4) à- 2016 和 年， 微软 的 一 个 团队 宣布 ， 他 们 开发 的 一 个 拥有 
120 层 的 深度 学 习 网 络 已 经 在 多 人 语 首 识别 基准 测试 中 达到 了 与 人 类 相 
当 的 水 平 。 有 6 





university of toronto. (f = 
Came together to develop with argthepbreakthrough in the 
field of speech recognition research. 

The idea that they had was to us@a technology In a 
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图 1-4 Mik ARARE XL ğe (Rick Rashid) 在 2012 年 10 月 25 日 于 中 国 天 津 举行 的 一 场 
活动 中 ， 使 用 深度 学 习 进 行 了 自动 语音 识别 的 现场 演示 。 在 2000 名 中 国 观众 面前 ， 拉 和 希 德 说 的 
英文 被 自动 化 系统 识别 ， 先 在 他 的 屏幕 图 像 下 方 显示 出 英文 字幕 ， 随 后 被 翻译 成 了 中 文 wk 
高 难度 展示 被 全 球 媒体 争 相 报道 。 图 片 来 源 : 微软 研究 院 。 


这 一 突破 性 成 果 将 在 之 后 的 几 年 逐渐 影响 我 们 的 社会 ， 计 算 机 键盘 
会 被 自然 语言 接口 取代 。 随 着 数字 助手 ， 如 亚马逊 的 Alexa、 苹 果 的 Siri 
以 及 微软 的 Cortana 先 后 进入 千家 万 户 ， 这 种 取代 已 经 在 用 生 了 。 就 如 随 
着 个 人 电脑 的 普及 ， 打 字 机 退出 了 历史 舞台 ， 有 一 天 电脑 键盘 也 将 成 为 
博物 馆 的 展品 。 





当 语音 识别 和 语言 翻译 结合 到 一 起 时 ， 实 时 的 跨 文 化 交流 将 有 可 能 
实现 。《 星 际 迷航 》 中 那 种 万 能 翻译 机 将 触手 可 及 。 为 什么 计算 机 语音 
识别 和 语言 翻译 达到 人 类 的 水 平 要 人 花 这 么 久 的 时 间 ? 难道 计算 机 的 各 种 
认 知 能 力 同 时 进入 瓶 锋 期 仅仅 是 巧合 吗 ? 其 实 所 有 这 些 突破 都 源 于 大 数 
据 的 出 现 。 


AI 医疗 : 医学 诊断 将 更 加 准确 


深入 皮肤 


随 着 机 器 学 习 的 成 熟 并 被 应 用 于 可 获取 大 数据 的 许多 其 他 问题 ， 服 
务 行业 和 其 相关 职业 也 将 发 生 转 变 。 基 于 数 百 万 患者 病情 记录 的 医学 诊 
岂 将 变 得 更 加 准确 。 最 近 的 一 项 研究 将 深度 学 习 运 用 到 了 夺 括 超过 2000 
种 不 同 疾 病 的 13 万 张 肥 肤 病 学 图 像 中 ， 这 个 医学 数据 库 是 以 前 的 10 售 大 
(图 1-5〉。 避 该 研究 的 网 络 被 训练 用 于 诊断 “测试 集 ”(testset， 它 从 
未 见 过 的 新 图 像 集 ) 中 的 各 种 疾病 。 它 在 新 图 像 上 的 诊断 表现 与 21 位 皮 
肤 科 专 家 的 结论 基本 一 致 ， 其 至 在 茶 些 情况 下 还 要 更 准确 。 在 不 久 的 将 
来 ， 任 何 一 个 拥有 智能 手机 的 人 都 可 以 拍 下 疑似 皮肤 病变 的 照片 ， 并 立 
即 进 行 诊断 一 一 而 现在 要 完成 同样 的 过 程 ， 我 们 需要 先 去 看 医生 ， 耐 心 
等 竺 病变 被 专家 得 得 出 来 ， 然 后 再 文 付 一 大 笔 账单 。 这 一 进步 将 大 大 打 - 
大 皮肤 病 护 理 的 范围 ， 提 升 护 理 质 量 。 如 果 个 体 可 以 很 快 得 到 专家 诊 
断 ， 他 们 会 在 皮肤 病 的 早期 阶段 ， 也 就 是 更 容易 治疗 的 时 候 就 开始 就 
医 。 借 助 深度 学 习 ， 所 有 的 医生 都 将 更 准确 地 诊断 罕见 的 皮肤 病 。 了 8] 



































图 1-5 艺术 家 绘制 的 高 准确 度 诊 断 皮 肤 病变 的 深度 学 习 网 络 图 ，2017 年 2 月 2 日 《自然 》 杂 志 封 
面 。 


深入 癌症 


如 果 专 家 在 转移 性 乳腺 癌 的 淋巴 结 活检 切片 图 像 上 判断 错误 ， 就 有 
可 能 导致 致命 的 后 果 。 这 是 一 种 深度 学 习 擅长 的 模式 识别 问题 。 实 际 
上 ， 一 个 经 过 大 量 结论 清晰 的 切片 数据 训练 出 来 的 深度 学 习 网 络 能 达到 
0.925 的 准确 度 ， 还 不 错 ， 但 还 不 及 人 类 专家 在 同一 测试 集 上 达到 的 
0.966。L 引 然而 ， 把 深度 学 习 与 人 类 专家 的 预测 结合 起 来 ， 准 确 度 达 到 
了 0.995， 几 近 完 美 。 由 于 深度 学 习 网 络 和 人 类 专家 查看 相同 的 数据 的 
方式 不 同 ， 二 者 相 结合 的 效果 比 单独 预测 要 好 。 这 样 一 来 ， 更 多 的 生命 
得 以 被 挽救 。 这 表明 在 未 来 ， 人 类 与 机 器 将 是 合作 而 非 竞 争 的 关系 。 











深入 睡 虐 


如 果 你 有 严重 的 睡眠 问题 《70% 的 人 一 生 中 都 会 遇 到 这 个 问题 ) ， 
你 要 等 待 几 个 月 才能 见 到 你 的 医生 《除非 问题 十 分 紧急 ) ， 然 后 你 会 被 
转 到 一 个 睡眠 诊所 。 在 那里 ， 你 需要 在 身上 接 几 十 个 能 在 你 入 睡 时 记录 


你 的 脑 电 图 CEEGO 和 肌肉 活动 的 电极 ， 接 受 彻夜 观察 。 每 个 晚上 ， 你 
会 先进 入 慢 波 睡眠 ， 然 后 定期 进入 快速 眼 动 (REM) 睡眠 ， 在 此 期 间 ， 
你 会 做 梦 ， 但 是 失眠 、 睡 眠 呼吸 暂停 综合 征 、 不 宁 腿 综合 征 以 及 许多 其 
他 睡眠 障碍 会 干扰 这 种 睡眠 模式 。 如 有 果 你 在 家 里 就 很 难 入 睡 ， 那 么 在 一 
张 陌生 的 床上 ， 全 映 接 满 了 让 人 不 安 的 医疗 设备 进入 睡眠 状态 ， 绝 对 算 
得 上 真正 的 挑战 。 睡 眠 专家 会 得 看 你 的 脑 电 图 记录 ， 以 30 秒 为 单位 标记 
睡眠 阶段 ， 一 段 8 小 时 的 睡眠 要 花 几 个 小 时 才能 标记 完 。 而 最 终 你 会 得 
到 一 份 有 关 睡 眠 模式 异常 情况 的 报告 ， 以 及 一 份 2000 美 元 的 账单 。 
依据 1968 年 由 安东尼 : 雷 希 特 施 分 (Anthony Rechtshaffen) 和 艾 伦 . 
FH (Alan Kales) 设计 的 系统 ， 睡 眠 专家 将 接受 寻找 表征 不 同 睡 眠 
阶段 特征 迹象 的 培训 。 上 但 是 由 于 这 些 特征 常常 不 明确 ， 也 不 一 致 ， 
只 有 75% 的 情况 下 专家 们 能 在 数据 解读 上 达成 一 致 。 相 比 之 下 ， 我 实验 
室 之 前 的 一 名 研究 生 菲 利 普 : 洛 (Philip Low) 使 用 无 监督 机 器 学 习 ， 花 
了 不 到 一 分 钟 的 计算 机 运算 时 间 ， 以 3 秒 的 时 间 分 辨 率 自 动 检测 睡眠 阶 
段 ， 和 879% 的 人 类 专家 达成 了 一 致 的 绪论。 此外， 这 种 方式 只 需要 在 头 
部 的 单个 位 置 做 记录 ， 用 不 到 那些 触 点 和 接线 ， 也 节省 了 大 量 佩戴 和 摘 
除 的 时 间 。2007 年 ， 我 们 创立 了 一 家 公司 Neurovigil， 想 将 这 项 技术 引 
入 睡 虐 诊 所 ， 但 诊所 对 此 没有 表现 出 多 大 兴趣 ， 因 为 靠 人 力 标注 能 产生 
更 多 的 现金 流 。 实 际 上 ， 依 据 保险 写 同 患者 开具 账单 ， 会 让 诊所 没有 动 
机 采用 更 廉价 的 程序 。Neurovigil 在 大 型 制药 公司 发 现 了 男 一 个 市 场 ， 
这 些 公司 在 开展 临床 试验 ， 需 要 测试 他 们 的 药物 对 睡眠 模式 的 影响 。 这 
项 技术 目前 正在 进入 长 期 护理 设施 市 场 ， 帮 助 解决 在 老年 人 中 更 普遍 的 
进行 性 睡眠 问题 。 


睡 虑 诊所 模式 是 存在 缺陷 的 ， 因 为 在 这 样 的 限制 条 件 下 不 能 可 靠 地 
诊断 出 健康 问题 : 每 个 人 的 生理 基数 都 不 同 ， 而 偏离 这 个 基数 的 信息 最 
重要 。Neurovigil 已 经 有 了 一 个 小 型 设备 iBrain， 它 可 以 在 家 里 记录 你 的 
脑 电 图 信息 ， 将 数据 传 到 网 上 并 分 析 数 据 的 长 期 趋势 和 异常 情况 。 这 可 
以 帮助 医生 及 时 发现 健康 问题 ， 在 恶化 前 及 时 干预 并 阻止 慢性 疾病 的 发 























展 。 其 他 很 多 疾病 的 治疗 也 将 受益 于 持续 监测 ， 如 1 型 糖尿 病 ， 血 糖水 
平 可 以 被 监测 并 通过 胰岛 素 进 行 调节 。 使 用 能 够 连续 记录 数据 的 廉价 传 
感 锋 正在 对 其 他 慢性 疾病 的 诊断 和 治疗 产生 重大 影 啊 。 

从 Neurovigil 的 发 展 过 程 中 可 以 看 出 : 第 一 ， 即 便 拥 有 更 好 更 廉价 
的 技术 ， 也 不 代表 能 轻易 地 将 其 转化 为 有 市 场 价值 ， 甚 至 更 优质 的 新 产 
品 或 服务 ;第 二 ， 当 现 有 产品 在 市 场 中 的 地 位 根深 蒂 固 ， 就 会 进一步 开 
发 出 深入 应 用 的 二 级 市 场 ， 可 以 让 新 技术 产生 更 直接 的 影响 ， 并 争取 时 
间 来 改进 ， 提 升 竞 争 力 。 太 阳 能 和 许多 其 他 新 兴 产 业 的 技术 就 是 这 样 进 
入 市 场 的 。 从 长 远 来 看 ， 已 被 证 实 共 有 优势 的 睡 虐 监测 和 新 技术 将 会 町 
六 到 家 中 的 患者 ， 并 最 终 融 入 医疗 实践 。 








金融 科技 : 利用 数据 和 算法 获取 最 佳 回 报 








纽约 证 券 区 易 所 超过 75% 的 交易 都 是 自动 完成 的 《图 1-6) , EUH 
交易 能 在 几 分 之 一 秒 内 进出 仓位 。〔( 如 果 你 不 用 为 每 笔 交 易 支 付费 用 ， 
那么 即使 是 很 小 的 优势 也 能 带 来 巨额 利润 。) 更 长 时 间 范 围 内 的 算法 交 
易 会 考虑 到 基于 大 数据 的 长 期 趋势 。 深 度 学 习 在 赚钱 和 提高 利润 方面 做 
得 越 来 越 好 。 忆 也 预测 金融 市 场 ， 问 题 在 于 数据 嗜 杂 ， 条 件 不 稳定 一 一 
一 场 选 举 或 国际 冲突 可 能 会 导致 投资 者 心态 在 一 夜 之 间 发 生变 化 。 这 总 
味 痢 用 来 预测 今天 股票 价值 的 算法 可 能 到 明天 区 不 准 了 。 在 实践 中 ， 被 
用 来 赚钱 的 算法 有 数 百 种 ， 表 现 突出 的 则 被 不 断 整 合 以 实现 最 优 回报 。 
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图 1-6 延迟 vs 头寸 持 有 时 间 。 在 线 机 器 学 习 正 在 推动 算法 交易 ， 它 比 传统 的 长 期 投资 策略 更 快 


速 ， 比 股票 市 场 中 的 高 频 交 易 更 加 慎重 。 许 多 不 同类 型 的 机 器 学 习 算 法 被 组 合 运用 以 获得 最 佳 
回报 。 





早 在 20 世 纪 80 年 代 ， 我 还 在 为 摩根 士 丹 利 的 股票 交易 神经 网 络 模型 
提供 咨询 时 ， 过 到 了 专门 设计 并 行 计算 机 的 计算 机 科学 家 大 卫 : 肖 
(David Shaw) 。 哥 伦比 亚 大 学 学 术 休 假期 间 ， 肖 曾 在 自动 化 交易 早期 
担任 量化 分 析 师 ， 随 后 他 在 华尔街 创立 了 自己 的 投资 管理 公司 德 动 集团 
(The D. E. Shaw Group) ， 现 在 他 已 经 是 亿 万 富 全 了 。 德 功 集 团 非常 成 
功 ， 但 仍然 进 于 男 一 家 对 冲 基金 文艺 复兴 科技 公司 (Renaissance 
Technologies) 。 这 家 基金 是 由 杰出 的 数学 家 、 纽 约 州立 大 学 石 溪 分 校 
数学 系 前 主任 詹姆斯 :西蒙 斯 (James Simons) 创立 的 。 仅 2016 年 ， 西 蒙 
斯 就 挣 了 16 亿 美元 ， 这 还 算 不 上 他 最 好 的 一 年 。 导 下 文艺 复兴 科技 被 称 
为 “世界 上 最 好 的 物理 和 数学 系 ，”L231“ 它 不 会 雇用 带 有 哪怕 一 点 点 华 尔 
街 正统 味道 的 人 ”。 上 4 




















不 再 参与 德 动 的 日 常 运营 后 ， 大 卫 . 肖 现在 专注 于 德 动 研究 所 〈D. 


E. Shaw Research) 的 业务 ， 该 研究 所 搭建 了 一 台 名 为 “Anton” 的 专用 并 
行 计算 机 ， 比 全 球 其 他 计算 机 执行 蛋白 质 折 炙 的 速度 都 快 得 多 。 避 关 西 
蒙 斯 退休 后 不 再 掌管 文艺 复兴 科技 ， 而 是 建立 了 资助 自 闭 症 及 其 他 物理 
和 生物 科学 项 目 研究 的 基金 会 。 通 过 加 州 大 学 伯克利 分 校 的 西蒙 斯 计算 
理论 研究 所 (the Simons Institute for the Theory of Computing at UC 
Berkeley) 、 麻 省 理工 学 院 的 西蒙 斯 社会 大 脑 中 心 (the Simons Center 
for the Social Brain at MIT〉 和 纽约 民 斗 研究 院 Cthe Flatiron Institute) , 
西蒙 斯 的 素 善事 业 对 推进 数据 分 析 、 建 模 和 仿真 的 计算 方法 产生 了 重大 
Eug, [26] 


更 广泛 的 金融 服务 正在 金融 科技 Cfintech) 的 大 背景 下 发 生 大 规模 
转型 。 诸 如 区 块 链 这 样 的 信息 拉 术 一 一 ”一 种 安全 的 互联 网 记 账 方式 ， 
取代 了 金融 交易 的 中 间 商 一 一 正在 接受 小 规模 的 测试 ， 但 它 很 快 就 会 扰 
乱 价值 数 万 亿美 元 的 金融 市 场 。 机 器 学 习 正 在 被 用 于 改进 贷款 信用 评 
估 ， 准 确 地 提供 业务 和 财务 信息 ， 在 社交 媒体 上 获取 预测 市 场 趋势 的 信 
号 ， 并 为 金融 交易 提供 生物 识别 安全 服务 。 谁 拥有 最 多 的 数据 ， 谁 就 是 
顾家 ， 而 世界 上 充斥 着 财务 数据 。 











深度 法 律 : 效率 的 提高 与 费用 的 降低 





深度 学 习 刚刚 开始 影响 法 律 界 。 律 师 事务 所 每 小 时 收费 数 百 美元 的 
法 务 助理 的 大 部 分 日 常 工作 都 将 实现 自动 化 ， 特 别 是 在 高 档 写字 楼 办 公 
的 规模 化 事务 所 里 。 具 体 点 说 ， 技 术 辅 助 审核 或 调查 将 被 人 工 智能 接 
管 ， 它 可 以 浏览 数 千 份 文件 以 获取 合法 证 据 ， 且 丝毫 不 会 感到 厌倦 。 自 
动 化 深度 学 习 系 统 也 将 帮助 律师 事务 所 遵守 日 益 复杂 的 政府 规定 。 这 些 
系统 将 为 现在 无 法 负担 律师 费用 的 普通 人 提供 法 律 建议 。 法 律 工作 不 仅 
收费 会 更 便宜 ， 也 会 更 高 效 ， 这 一 点 通常 比 费用 更 重要 。 法 律 世界 正在 
走向 “深度 法 律 ">。[2] 














TEM shoe: 当 机 需 智能 学 会 了 虚 张 声势 


一 对 一 无 限 注 德州 扑克 是 最 受 欢迎 的 扑 殉 玩法 之 一 ， 常 见于 赌场 ， 
无 限 注 投注 方式 则 通常 出 现在 世界 扑 殉 系 列 赛 〈《World Series of Poker) 
的 主 赛事 中 。 扑 元 很 有 挑战 性 ， 因 为 与 国际 象棋 玩家 可 以 获得 相同 的 信 
恩 不 同 ， 扑 元 玩家 的 信息 不 完整 ， 而 且 在 最 高 级 别 的 比赛 中 ， 诈 噶 、 欺 
骗 的 技巧 和 拿 到 的 有 牌 一 样 重要 。 


数学 家 约翰 : 汉 : 诺 依 曼 (John von Neumann) 创立 了 数学 博弈 理 
论 ， 也 是 数字 计算 机 之 父 ， 他 就 对 扑克 特别 着 迷 。 他 说 过 : “现实 生活 
包括 虚 张 声势 ， 一 点 欺骗 手段 ， 以 及 自问 另 一 个 人 会 怎么 评判 我 做 事 的 
意图 。 这 就 是 我 理论 中 博弈 的 内 涵 。”[ 引 扑克 是 一 种 博弈 ， 反 映 了 经 
过 进化 精炼 过 的 人 类 智能 的 一 部 分 。 一 个 名 为 “DeepStack” 的 深度 学 习 
网 络 和 33 名 职业 扑克 选手 进行 了 44852 场 比赛 。 令 扑克 专家 震惊 的 是 ， 
它 以 相当 大 的 优势 ， 一 个 标准 差 ， 击 败 了 最 出 色 的 扑克 玩家 ， 同 时 以 四 
个 标准 差 在 整体 上 击败 了 全 部 33 名 玩家 一 多 么 巨大 的 差距 ( 见 图 1- 
7) 。[3 引 如 果 这 一 成 就 能 复制 到 其 他 基于 不 完全 信息 、 需 要 人 来 做 判 
断 的 重要 领域 ， 比 如 政治 学 和 国际 关系 ， 其 影响 可 能 是 极其 深远 
A. 130] 
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图 1-7 一 对 一 无 限 注 德 州 扑 克 。 强 势 手 牌 。DeepStack 已 经 掌握 了 如 何在 高 筹码 扑克 中 虚 张 声 
势 ， 以 大 比分 优势 击败 职业 扑克 玩家 。 





AlphaGo: 神经 科学 与 人 工 智 能 的 协同 


2016 年 3 月 ， 韩 国 围棋 界 18 次 世界 冠军 获得 者 李 世 石 (Lee Sedol) 
与 DeepMind 公 司 的 AlphaGo“〈 图 1-8) 一 一 一 个 使 用 深度 学 习 网 络 评估 
栓 面 形势 和 可 能 的 走 法 的 围棋 程序 一 进行 了 5 场 比 赛 。 忆 围棋 相对 
国际 象棋 的 难度 ， 相 当 于 国际 象棋 对 跳棋 的 难度 。 如 果 国 际 象 棋 是 一 场 
战役 ， 那 么 围棋 就 是 一 场 战 争 。 一 块 19x19 围 棋 棋 盘 比 一 块 8x8 象 棋 棋盘 
大 得 多 ， 这 使 得 在 棋盘 的 不 同 部 分 可 能 同时 发 生 多 场 战 役 。 不 同 战役 之 
间 存 在 长 期 的 相互 作用 ， 即 使 是 专家 也 难以 判断 。 围 棋 的 合法 棋局 总 数 
是 1010， 远 远 超 过 宇宙 中 的 原子 数量 。 
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图 1-8 韩国 围棋 冠军 李 世 石 对 战 AlphaGo 的 5 场 比赛 里 ， 某 一 场 战 局 中 的 棋盘 。AlphaGo 是 一 个 通 
过 与 自己 下 围棋 来 学 习 的 深度 学 习 神 经 网 络 。 


除了 几 个 评估 盘 局 并 选择 最 佳 着 数 的 深度 学 习 网 络 ，AlphaGo 还 有 
一 个 完全 不 同 的 学 习 系 统 ， 用 于 解决 时 间 信 用 分 配 问题 ， 在 众多 步 棋 
中 ， 哪 一 步 对 赢得 胜利 有 所 贡献 ， 哪 一 步 对 失败 承担 责任 ?大脑 的 基底 
神经 节 接 收 来 自 整 个 大 脑 皮层 的 投射 ， 并 投射 回去 ， 利 用 时 间 差 分 算法 
和 强化 学 习 来 解决 这 个 问题 。AlphaGo 使 用 由 基底 神经 节 进 化 出 来 的 相 
同 的 学 习 算 法 ， 以 评估 最 大 化 未 来 奖励 的 行动 顺序 〈 这 一 过 程 将 在 第 10 
章 中 做 出 解释 ) 。AlphaGo 通 过 反复 和 自己 下 棋 来 学 习 这 一 技能 。 

AlphaGo 和 李 志 石 对 决 的 围棋 比赛 在 亚洲 得 到 了 极 高 的 关注 。 在 亚 
洲 ， 围 棋 冠 军 是 全 国 性 的 公众 人 物 ， 有 着 摇 深 明星 一 样 的 待遇 。 
AlphaGo 早 些 时 候 击 败 了 欧洲 的 围棋 冠军 ， 但 是 那 场 比 赛 的 水 平 远 低 于 
亚洲 的 最 高 水 平 ， 因 此 李 世 石 并 没有 做 好 打 一 场 硬 仗 的 心理 准备 。 即 使 
是 开发 AlphaGo 的 公司 DeepMind， 也 并 不 清楚 他 们 的 深度 学 习 程 序 到 底 
有 多 强大 。 自 上 一 场 比赛 以 来 ，AlphaGo 已 经 与 好 几 个 版 本 的 自己 下 了 
数 百 万 局 的 棋 ， 然 而 并 没有 任何 标准 来 判断 它 的 水 平 到 底 达 到 了 何 种 高 











BR. 

AlphaGo mfa Y 5 EGER BU 33A H. VES AME SG BVA 
它 展现 出 了 让 人 意 想 不 到 的 高 水 准 。 这 项 比赛 在 韩国 有 很 高 的 关注 度 ， 
所 有 的 主流 电视 台 都 对 比赛 进行 了 实况 报道 。AlphaGo 有 一 些 着 数 是 单 
命 性 的 。 在 第 二 场 比 赛 的 第 三 十 八 步 ，AlphaGo 下 出 了 精彩 的 一 着 ， 让 
李 世 石 感到 十 分 惊讶 ， 他 花 了 将 近 10 分 钟 的 时 间 才 诀 定 下 一 步 要 怎么 
走 。AlphaGo 输 掉 了 第 四 场 比赛 ， 这 是 人 类 挽回 颜面 的 一 场 胜 利 ， 最 终 
它 的 战绩 是 4 胜 1 负 〈 图 1-9) 。 了 343 月 的 夜晚 ， 我 在 圣迭戈 的 凌晨 兴致 
靳 靳 地 观看 了 这 场 较量 。 这 让 我 回想 起 1966 年 6 月 2 日 凌晨 1 点 ， 我 在 死 
利夫 兰 市 ， 坐 在 电视 机 劳 关注 痢 “ 勘 训 者 1 号 ?探测 局 降 落 在 月 球 上 ， 并 
传 回 了 第 一 张 月 球 照片 。 了 3 引 我 亲眼 见证 了 这 些 历史 时 刻 。AlphaGo 的 
表现 远 远 超出 了 我 和 其 他 许多 人 的 期 待 。 




















图 1-9 在 2016 年 3 月 的 围棋 挑战 赛 中 输 给 了 AlphaGo 之 后 的 李 世 石 。 


2017 年 1 月 4 日 ， 一 个 名 为 “Master” 的 选手 在 一 个 网 络 围棋 服务 器 上 





主动 现 身 ， 其 真正 身份 是 AlphaGo 2.0。 在 此 之 前 ， 它 在 与 世界 顶尖 棋 手 
的 比赛 中 取得 了 60 场 全 胜 的 战绩 ， 被 击败 的 棋 手中 包括 当时 世界 排名 第 
一 的 高 手 ，19 岁 天 才 棋 手 柯 洁 。AlphaGo 显 露出 了 一 种 能 与 同时 代 的 佼 
佼 者 抗衡 的 全 新 风格 。2017 年 5 月 27 日 ， 在 中 国 乌 镇 举办 的 围棋 峰会 
上 ， 柯 洁 以 3 场 背 负 的 结果 输 给 了 AlphaGo《〈 见 图 1-10) 。 这 是 有 史 以 来 
最 精彩 的 几 场 围棋 比赛 ， 数 亿 中 国人 都 观看 了 该 赛事 。“ 去 年 ， 我 还 觉 
得 AlphaGo 的 表现 与 人 类 非常 接近 ， 但 今天 我 认为 它 是 ‘围棋 之 神 '。” 柯 
wie eee, BA 

在 第 一 场 比赛 中 ， 他 以 一 目 半 的 微弱 差距 输 掉 了 比赛 。 柯 洁 说 
他 “在 比赛 中 途 已 经 感觉 快要 赢 了 ”。 他 非常 兴奋 : “我 能 感觉 到 自己 的 
AMIEZEFERE ELE! 可 能 因为 我 太 兴 奋 ， 有 几 步 棋 走 错 了 。 也 许 这 就 是 人 
类 棋 手 最 薄弱 的 部 分 吧 。”[51 柯 洁 经 历 了 一 种 情绪 上 的 超 负 荷 ， 但 要 
达到 最 佳 状态 ， 更 需要 相对 沉稳 的 情绪 。 事 实 上 ， 舞 台 演 员 们 都 知道 ， 
如 果 他 们 演出 前 没有 胃 里 翻 江 倒 海 的 紧张 感 ， 就 无 法 呈现 出 最 精彩 的 演 
出 。 他 们 的 表演 遵循 一 种 倒 U 形 曲线 ， 即 最 佳 状态 处 于 较 低 和 较 高 的 兴 
奋 点 之 间 。 运 动员 把 这 叫 作 “在 状态 ”。 
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图 1-10 2017 年 在 中 国 ，DeepMind 的 联合 创始 人 兼 CE0 德 米 斯 。 哈 萨 比 斯 (Demis Hassabis, 
A) 和 柯 洁 在 历史 性 的 围棋 比赛 结束 后 会 面 ， 共 同 展 示 带 有 柯 洁 签名 的 棋盘 。 图 片 来 源 : BA 
斯 。 哈 萨 比 斯 。 


2017 年 5 月 26 日 ，AlphaGo 还 击败 了 由 5 名 顶尖 棋 手 组 成 的 队伍 。 这 
些 棋 手 都 分 析 过 AlphaGo 的 招数 ， 并 已 经 在 相应 地 改变 自己 的 策略 。 这 
场 比赛 由 中 国政 府 主办 ， 可 以 说 是 一 个 新 版 的 “乒乓 外 交 ”。 己 外 中 国正 
在 机 器 学 习 方 面 投入 大 量 资金 ， 其 大 脑 研 究 计 划 的 一 个 主要 目标 是 挖掘 
大 脑 潜能 来 创造 新 的 算法 。 马 本 

该 围棋 事件 后 续 的 发 展 可 能 会 更 令 人 惊叹 。 在 开始 跟 上 自己 下 棋 之 
前 ，AlphaGo 是 通过 观察 学 习 16 万 次 人 类 围棋 比赛 起 步 的 。 有 人 认为 这 
是 作弊 一 一 一 个 自主 的 AI 程序 应 该 能 够 在 没有 积累 任何 人 类 知识 的 条 件 
下 学 习 下 围棋 。2017 年 10 月 ， 一 款 名 为 AlphaGo Zero 的 新 版 本 AI 程序 面 
世 了 。 它 从 游戏 规则 开始 一 步 步 学 习 下 围棋 ， 击 败 了 曾 战 胜 柯 洁 的 版 本 
AlphaGo Master， 战 绩 为 100 : 0。 忆 8 此 外 ，AlphaGo Zero 的 学 习 速 度 











比 AlphaGo Master 快 100 倍 ， 而 计算 能 力 差 不 多 只 有 后 者 的 110。 完 全 忽 
略 人 类 的 知识 ，AlphaGo Zero 变 成 了 无 敌 超人 。 随 着 机 器 学 习 算法 的 不 
其 进步 ，AlphaGo 还 会 变 得 多 么 优秀 ， 并 没有 已 知 的 上 限 。 


AlphaGo Zero 虽 然 没 有 和 人 下 棋 ， 但 仍然 有 许多 围棋 知识 被 人 为 添 
加 到 程序 中 强化 棋艺 的 特征 。 如 果 没 有 任何 围棋 知识 ，AlphaGo Zero 也 
许 仍 有 进一步 改进 的 空间 。 残 像 零度 可 乐 将 可 口 可 乐 里 所 有 的 热量 分 离 
出 来 一 样 ， 围 棋 的 所 有 知识 都 被 从 Alpha Zero 中 剥离 出 来 。 结 果 ，Alpha 
Zero 能 够 更 快 、 更 果断 地 打败 AlphaGo Zero。 忆 站 为 了 进一步 说 明 “ 少 就 
是 多 ”，Alpha Zero 在 没有 改变 任何 一 个 学 习 参 数 的 情况 下 ， 学 会 了 如 何 
以 超人 的 水 准 下 国际 象棋 ， 还 创造 了 人 类 从 未 使 用 过 的 着 数 。 在 与 
Stockfish 这 个 已 经 是 超人 级 别 的 顶级 国际 象棋 程序 的 对 决 中 ，Alpha 
Zero 还 没有 输 过 。 在 一 场 比 赛 中 ，Alpha Zero 大 胆 地 牺牲 了 一 个 象 一 一 
这 种 做 法 通常 用 来 获得 位 置 上 的 优势 ， 随 后 又 牺牲 了 王后 ， 这 一 步 看 起 
来 像 是 个 大 昏 着 儿 ， 直 到 很 多 步 以 后 ，Alpha Zero 冷 不 防 将 了 一 盏 ， 无 
论 是 Stockfish 还 是 人 类 棋 手 都 没 能 预见 到 这 样 的 结果 。 外 星人 已 经 着 
陆 ， 地 球 从 此 要 改头换面 了 。 


AlphaGo 的 开发 者 DeepMind 于 2010 年 由 神经 学 家 德 米 斯 : 哈 萨 比 斯 
参与 创立 ， 他 曾 在 伦敦 大 学 学 院 的 盖 次 比 计算 神经 科学 部 门 
(University College London's Gatsby Computational Neuroscience Unit) 
担任 博士 后 研究 员 。 访 部门 由 彼得 . 达 扬 (Peter Dayan) 领导 ， 达 扬 曾 
是 我 实验 室 的 博士 后 研究 员 ，2017 年 和 雷 蒙 德 :多 兰 〈Raymond Dolan) 
以 及 沃 尔 夫 拉 姆 : 舒 尔 奖 (Wolfram Schultz) 共同 获得 了 享有 盛誉 的 “大 
WX” (Brain Prize) ， 以 表彰 他 们 在 奖励 学 习 方面 的 研究 。 谷 歌 在 2014 
年 以 6 亿美 元 的 价格 收购 了 DeepMind。 该 公司 雇用 了 400 多 名 工程 师 和 
神经 科学 家 ， 拥 有 学 术 界 和 创业 公司 混合 的 双重 文化 。 神 经 科学 与 人 工 
智能 之 间 的 协同 作用 日 渐 深入 ， 而 且 还 在 加 速 。 









































弗 林 效应 : 深度 学 习 让 人 类 更 加 智能 


AlphaGo 有 智力 吗 ? 除了 “意识 ”这 个 主题 ， 关 于 智力 的 文章 比 心理 
学 中 任何 其 他 主题 都 要 多 得 多 ， 这 两 个 概念 都 很 难 界定 。 上 自 20 世 纪 30 年 
代 以 来 ， 心 理学 家 就 对 流体 智力 和 晶体 智力 进行 了 区 分 一 流体 智力 能 
够 将 新 条 件 中 的 推理 和 模式 识别 用 于 解决 新 问题 ， 而 不 依赖 于 以 前 的 知 
WR: 晶体 智力 则 依赖 于 先前 的 知识 ， 也 是 标准 智商 测试 〈 即 IQ 测 试 ) 的 
对 象 。 流 体 智 力 遵循 一 种 抛物 线 式 发 展 轨迹 ， 在 成 年 早期 达到 高 峰 ， 并 
随 着 年 龄 的 增长 逐渐 下 降 ， 而 晶体 智力 会 随 年 龄 的 增长 ， 缓 慢 渐进 式 地 
提高 ， 直 至 暮年 。AlphaGo 只 在 一 个 相当 狭窄 的 领域 同时 展现 出 了 晶体 
智力 和 流体 智力 ， 但 在 这 个 领域 ， 它 表现 出 了 令 人 惊讶 的 创造 力 。 专 业 
知识 的 获取 也 是 基于 在 狭 罕 领 域 的 学 习 。 我 们 都 是 语言 领域 的 专家 ， 每 
天 都 在 使 用 语言 。 


AlphaGo 使 用 的 强化 学 习 算法 可 以 被 用 来 解决 许多 问题 。 这 种 形式 
的 学 习 只 取决 于 在 一 系列 动作 结束 时 给 予 获 胜 者 的 奖励 ， 这 似乎 和 提前 
做 出 更 好 的 决策 相 了 矛盾。 结合 了 许多 强大 的 深度 学 习 网 络 ， 就 会 生成 许 
多 领域 相关 的 智能 。 而 且 事 实 上， 已 经 出 现 了 与 领域 相关 的 不 同类 型 智 
能 ， 例 如 社 人 会、 情感、 机械 和 建筑 等 的 案例 。 甘 01 智力 测试 测量 的 一 般 
因素 (general factor， 简 称 g 因 素 ) 与 这 些 不 同类 型 相关 。 我 们 有 理由 认 
真 审 视 IQ 测 试 。 自 20 世 纪 30 年 代 首次 测试 智力 以 来 ， 全 人 类 平均 的 IQ 分 
数 每 10 年 会 上 升 三 个 点 ， 这 一 趋势 被 称 为 “ 弗 林 效应 ”(Flynn effect) 。 
对 于 弗 林 效应 有 许多 可 能 的 解释 ， 比 如 更 充足 的 营养 、 更 完善 的 医疗 体 
系 ， 以 及 其 他 环境 因素 。 弛 这 很 有 道理 ， 因 为 环境 会 影响 基因 调控 ， 
从 而 影响 大 脑 内 在 的 连接 ， 行 为 也 会 随 之 发 生变 化 。[2] 随 着 人 类 越 来 
越 多 地 生活 在 人 造 环 境 中 ， 大 脑 正 在 以 某 种 超越 自然 进化 轨道 的 方式 被 
塑造 。 在 更 长 的 时 间 内 ， 人 类 是 否 能 一 直 都 在 变 得 更 聪明 ? 智商 增长 会 
FEZA? 用 电脑 玩 国 际 象 棋 、 西 洋 双 陆 棋 和 围棋 的 人 数 自 计算 机 程序 
达到 冠军 级 别 后 一 直 在 稳步 增加 ， 而 机 器 也 强化 了 人 类 玩家 的 智 
能 。J3] 深 度 学习 提升 的 将 不 仅仅 是 科学 研究 人 员 的 智能 ， 还 包括 所 有 
行业 从 业 人 员 的 智能 。 





























科学 仪器 正 以 惊人 的 速度 产生 数据 。 位 于 日 内 瓦 的 大 型 强 子 对 撞 机 
(LHC) 中 发 生 的 基本 粒子 碰撞 每 年 产生 25PB (1PB=1000TB) 的 数 
据 。 大 型 综合 巡天 望远镜 (SST) 每 年 将 产生 6PB 的 数据 。 机 器 学 习 正 
被 用 于 分 析 庞 大 的 物理 和 天 文 数据 集 ， 其 规模 之 浩大 让 人 类 根本 无 法 通 
过 传统 方法 进行 搜索 。L4 引 例如 ，DeepLensing 是 一 种 神经 网 络 ， 可 以 识 
别 遥 远 星 系 的 图 像 。 这 些 图 像 由 于 光 在 传播 中 因 围 比 周 边 星 系 的 “引力 
透镜 ”造成 的 光路 偏 折 而 被 扭曲 了 。 这 一 技术 可 以 自动 发 现 许多 遥远 的 
新 星系 。 物 理学 和 天 文学 中 还 有 许多 其 他 类 似 “ 大 海 捞 针 ”的 问题 ， 而 深 
度 学 习 能 够 让 传统 的 数据 分 析 方 法 如 虎 添 器 。 








新 教育 体系 BER AM BAD 


银行 在 20 世 纪 60 年 代 后 期 推出 了 面向 银行 账户 持 有 人 的 全 天 候 现 金 
提取 服务 ， 这 对 于 那些 在 银行 正常 营业 时 间 之 外 需要 现金 的 人 来 说 非常 
方便 ， 目 动 提 区 机 CATM) 从 此 获得 了 阅读 手写 文 办 的 能 力 。 尺 管 它 
们 的 存在 减少 了 银行 柜员 的 日 萤 工 作 量 ， 但 有 越 来 越 多 的 柜员 为 客户 提 
供 按揭 和 投资 建议 等 个 性 化 服务 ， 同 时 也 出 现 了 维修 ATM 的 新 工 
种 。 引 就 如 一 方面 ， 蒸 汽机 代 蔡 了 体力 劳动 者 ， 但 另 一 方面 ， 这 为 能 
够 建造 和 维护 蒸汽 机 及 驱动 北 汽机 车 的 熟练 工人 提供 了 新 的 束 业 机 会 。 
亚马逊 的 在 线 营 销 也 将 许多 员工 从 当地 实体 零售 店 中 迁移 出 来 ， 但 同时 
也 为 分 配 和 运输 其 商品 ， 以 及 许多 使 用 其 平台 的 企业 创造 了 38 万 个 新 的 
工作 机 会 。 呈 L 由 于 现在 需要 人 类 认 知 技能 的 工作 被 自动 化 人 工 智能 系 
统 所 接管 ， 那 些 能 够 创建 和 维护 这 些 系统 的 人 将 会 获得 新 的 工作 。 

工作 变动 不 是 什么 新 鲜 事 。19 世 纪 ， 农 场 劳 工 被 机 器 取代 ， 机 器 也 
在 城市 工厂 创造 了 新 的 工作 机 会 ， 所 有 这 些 都 需要 一 个 教育 系统 来 培训 
工人 新 的 技能 。 不 同 之 处 在 于 ， 今 天 ， 由 人 工 智能 开辟 的 新 职位 除了 需 
要 传统 的 认 知 技能 之 外 ， 还 需要 新 的 、 不 同 的 、 不 断 变化 的 技能 。 忆 人 


























所 以 我 们 都 需要 终身 学 习 。 要 做 到 这 一 点 ， 我 们 需要 一 个 以 家 许 ， 而 不 
是 以 学 校 为 基础 的 新 教育 体系 。 


对 运 的 是 ， 就 像 寻找 新 工作 的 需求 变 得 迫在眉睫 一 样 ， 互 联网 上 免 
费 的 大 规模 开放 式 在 线 课 程 莫 课 (MOOCs) 也 应 运 而 生 ， 来 帮助 人 们 
获取 新 的 知识 和 技能 。 虽 然 仍 处 于 初级 阶段 ， 但 聚 课 的 在 线 教育 生态 系 
统 正 在 迅速 发 展 ， 并 在 为 更 广泛 的 人 群 提供 前 所 未 有 的 优质 教学 。 与 下 
RAED RAZA, SSRI BE SOR AR. EE eA) 
(Barbara Oakley) 和 我 开设 了 一 门 名 为 “学 会 如 何 学 习 ”(Learning How 
to Leam) 的 桶 谋 一 一 该 热门 课程 会 教 你 如 何 成 为 更 好 的 学 习 者 〈 见 图 
1-11) 一 一 以 及 一 门 名 为 "思维 转换 ”〈Mindshift) Mask, BRUT ex 
造 自己 并 改变 你 的 生活 方式 〈 这 两 门 课 将 在 第 12 章 中 详细 介绍 ) 。 
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图 1-11 “学 会 如 何 学 习 ” 教 你 如 何 成 为 更 好 的 学 习 者 ， 它 是 互联 网 上 最 受 欢 迎 的 慕 课 ， 拥 有 超 
过 300 万 学 习 者 。 


进行 网 上 操作 时 ， 其 实 正在 生成 机 器 可 读 的 天 于 你 目 己 的 大 数据 。 
根据 你 在 互联 网 上 行为 的 蛛丝马迹 ， 你 正在 被 自动 生成 的 相关 广告 定 
位 。 你 在 Facebook〔 脸 谱 网 ) 和 其 他 社交 媒体 网 站 上 发 布 的 信息 可 被 用 
于 创建 数字 助理 ， 它 几乎 比 世 界 上 任何 其 他 人 都 更 了 解 你 ， 并 且 不 会 站 
漏 任何 内 容 ， 实 际 上 就 相当 于 你 的 虚拟 分 吴 。 通 过 将 互联 网 跟踪 和 深度 
学 习 者 纳入 服务 ， 现 在 这 些 孩 子 的 后 代 拥 有 的 教育 机 会 将 比 今 天 富裕 家 
庭 拥 有 的 最 优质 的 教育 机 会 还 要 好 。 这 些 孙 韭 将 拥有 自己 的 数字 导师 ， 








导师 将 在 整个 教育 过 程 中 陪伴 他 们 。 教 育 不仅 会 变 得 更 加 个 性 化 ， 也 会 
变 得 更 加 精准 。 世 界 各 地 已 经 开展 了 各 种 各 样 的 教育 实验 ， 例 如 可 汗 学 
院 ， 由 盖 茨 基金 会 、 陈 - 扎 克 伯 格 基金 会 和 其 他 慈善 基金 会 资助 。 这 些 
实验 机 构 正 在 测试 软件 ， 以 便 让 所 有 的 孩子 都 可 以 根据 自己 的 节奏 进 

步 ， 并 适应 每 个 儿童 的 特定 需求 。[481 数 字 导 师 的 普及 将 使 教师 从 教学 
中 的 重复 劳动 ， 如 评分 中 解脱 出 来 ， 专 注 于 人 类 最 擅长 的 事情 一 “对 学 
习 困 难 的 学 生 提 供 精 神 支持 ， 并 给 予 有 天 赋 的 学 生灵 感 启发 。 教 育 技术 
(Edtech) 正在 快速 发 展 ， 与 自动 驾驶 汽车 相 比 ， 传 统 教育 向 精准 教育 
过 渡 的 速度 可 能 相当 快 ， 因 为 它 必须 克服 的 障碍 要 小 得 多 ， 需 求 却 要 大 
得 多 ， 而 且 美 国 的 教育 是 一 个 万 亿美 元 的 市 场 。[ 四 | 一 个 主要 的 问题 就 
是 ， 谁 能 够 访问 数字 助理 和 数字 导师 的 内 部 文件 。 



































正面 影响 : 新 兴 技 术 不 是 生存 威胁 


AlphaGo 在 2016 年 宇 无 争议 地 击败 了 李 世 石 ， 这 激化 了 过 去 知 干 年 
引发 的 人 工 智 能 可 能 给 人 类 带 来 威胁 的 担忧 。 计 算 机 科学 家 签署 了 不 会 
将 AI 用 于 军事 目 的 的 承 诡 协 议 。 斯 带 分 .霍金 (Stephen Hawking) 和 比 
Rtv (Bill Gates) 公开 发 表 声 明 ， 和 警告 人 工 智 能 可 能 对 人 类 造成 的 
生存 威胁 。 伊 隆 . 马 斯 克 (Elon Musk) 和 其 他 硅谷 企业 家 成 立 了 一 家 新 
公司 OpenAI， 拥 有 10 亿 美元 储备 金 ， 并 聘请 了 杰 弗 里 . 泣 顿 之 前 的 一 名 
学 生 伊利 娅 . 苏 特 斯 科 娃 CIlya Sutskever) 担任 第 一 任 总 监 。 虽 然 
OpenAI 的 既定 目标 是 确保 未 来 人 工 智 能 的 发 现 将 公开 供 所 有 人 使 用 ， 

但 它 还 有 男 一 个 隐 含 的 更 重要 的 目标 : 防止 私人 公司 作恶 。AlphaGo 战 
胜 了 围棋 世界 冠军 李 世 石 ， 一 个 临界 点 也 随 之 到 来 。 几 平 在 一 夜 之 间 ， 
人 工 智 能 从 一 项 失败 的 技术 ， 转 变 成 了 可 感知 的 生存 威胁 。 

一 种 新 兴 技 术 被 看 作 生 存 威胁 ， 这 已 经 不 是 第 一 次 了 。 核 武器 的 发 
明 、 改 进 和 储存 曾经 是 一 种 毁灭 全 世界 的 威胁 ， 但 至 少 到 目前 为 止 ， 我 
们 有 能 力 阻 止 这 种 情况 的 发 生 。 重 组 DNA 技 术 刚 问世 的 时 候 ， 人 们 担心 








经 人 工 改造 的 致命 生物 会 从 实验 室 逃 出 来 ， 导 致 全 球 范 围 内 出 现 难以 舍 
量 的 痛苦 和 死亡。 基因 工程 现在 已 经 是 一 项 成 熟 的 技术 ， 目 前 我 们 已 经 
能 和 它 的 产物 共存 。 与 核武 器 和 致命 生物 相 比 ， 机 器 学 习 的 最 新 进展 构 
成 的 威胁 相对 较 小 。 我 们 也 将 适应 人 工 智能 。 事 实 上 ， 这 已 经 在 发 生 
Y. 


DeepStack 的 成 功 带 来 的 其 中 一 个 暗示 是 ， 深 度 学 习 网 络 可 以 学 习 
如 何 成 为 世界 项 级 的 骗子 。 训 练 深层 网 络 能 干什么 只 受 限 于 训练 者 的 想 
象 力 和 数据 。 如 果 一 个 网 络 可 以 接受 安全 驾驶 汽车 的 训练 ， 那 么 它 也 可 
以 被 训练 车 驶 F 1 赛车 ， 很 可 能 有 人 愿 意 为 此 掏腰包 。 人 今天， 我 们 仍然 
需要 技术 娴熟 和 训练 有 素 的 从 业 人 员 使 用 深度 学 习 来 搭建 产品 和 服务 ， 
但 随 着 计算 能 力 的 成 本 持续 下 降 、 软 件 功 能 更 加 自动 化 ， 很 快 ， 高 中 生 
就 可 能 具备 开发 AI 应 用 程序 的 能 力 了 。 作 为 德国 收入 最 高 的 在 线 电子 商 
SAA, WE (Otto) 主要 经 营 服装 、 家 居 和 体育 用 品 。 它 正在 利用 深 
度 学 习 ， 根 据 历 史 订 单 信 息 预 测 客户 未 来 可 能 购买 的 产品 ， 并 提前 为 他 
们 下 单 。P 电 客户 几乎 在 订购 前 就 收 到 了 自己 想 订购 的 商品 ， 准 确 率 达 
到 90%。 自 动 完 成 工作 且 无 级 人 工 和 干预， 这 种 预订 操作 不 仅 可 以 每 年 为 
公司 在 剩余 库存 和 退货 环节 节省 数 百 万 欧元 ， 还 提高 了 客户 满意 度 和 保 
有 率 。 深 度 学 习 显著 提高 了 奥 托 公司 的 生产 力 ， 却 并 没有 取代 它 的 工 
人 人。 人工 智 能 可 以 让 你 在 工作 中 更 高 效 。 

虽然 主要 的 高 科技 公司 开拓 了 深度 学 习 的 应 用 ， 但 机 器 学 习 工 具 已 
经 普遍 存在 了 ， 许 多 其 他 公司 也 开始 从 中 受益 。Alexa 是 一 个 广 受 欢迎 
的 数字 助理 ， 与 亚马逊 Echo 智能 音箱 配合 使 用 ， 能 够 基于 深度 学 习 对 上 自 
然 语 言 发 出 的 请 求 做 出 回应 。 亚 马 逊 网 络 服务 CAWS) 引入 了 名 
为 “Lex”、“Poly” 和 “Comprehend” 的 工具 箱 ， 可 以 分 别 基于 上 自动 化 文 
字 、 语 音 转换 、 语 音 识 别 和 自然 语言 理解 ， 方 便 地 开发 相同 的 自然 语言 
界面 。 上 共有 对 话 交 互 能 力 的 应 用 程序 现在 可 供 无 力 雇用 机 器 学 习 专 家 的 
小 型 企业 使 用 。 企 业 通 过 应 用 这 一 程序 可 以 提高 客户 满意 度 。 


当 最 好 的 人 类 棋 手 在 计算 机 程序 面前 都 赚 然 失色 时 ， 人 类 会 不 再 下 
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大 众 化 。 顶 级 的 国际 象棋 选手 曾经 都 来 自 莫 斯 科 和 纽约 等 大 城市 。 这 些 
地 方 大 师 云集 ， 可 以 教授 年 轻 棋 手 并 提高 他 们 的 技能 水 平 。 国 际 象棋 电 
脑 程 序 使 得 在 挪威 小 镇 长 大 的 马 格 努 斯 :卡尔 森 (Magnus Carlson) 132 
就 成 为 国际 象棋 大 师 ， 如 今 他 已 是 世界 国际 象棋 冠军 。 人 工 智 能 不 仅 对 
游戏 产生 了 正面 的 影响 ， 更 会 推动 人 类 付 诸 努力 的 各 个 方面 ， 从 艺术 到 
科学 。AI 可 以 让 你 变 得 更 聪明 。D 





回 到 未 来 : 当 人 类 智能 遇 到 人 工 智能 


本 书 有 两 个 相互 交织 的 主题 : 人 类 鲁能 是 如 何 进 化 的 ， 以 及 人 工 知 
能 会 如 何 演变 。 这 两 种 智能 之 间 的 巨大 差异 在 于 ， 人 类 智能 的 进化 经 历 
了 数 百 万 年 的 时 间 ， 而 人 工 智 能 在 最 近 几 十 年 才 发 展 起 来 。 尽 管 对 于 文 
化 演变 来 说 ， 这 个 速 有 度 仍 然 是 快 得 出 奇 ， 但 是 过 于 谨 小 慎 微 可 能 并 不 是 
个 正确 的 选择 。 

深度 学 习 在 近期 取得 的 突破 ， 并 不 是 你 从 新 闻 报 道中 读 到 的 那 种 一 
夜 成 功 。 从 基于 符号 、 逻 辑 和 规则 的 人 工 智能 回 基 于 大 数据 和 学 习 算法 
的 深度 学 习 网 络 的 转弯 ， 其 背后 的 故事 通常 并 不 为 人 所 熟知 。 本 书 介 绍 
了 这 个 故事 ， 并 从 我 的 角度 探讨 了 深度 学 习 的 起 源 和 成 果 。 作 为 20 世 纪 
80 年 代 开 发 神经 网 络 学 习 算 法 的 先行 者 和 NIPS 基 金 会 的 主席 ， 我 杀 刁 经 
历 了 过 去 30 年 机 器 学 习 和 深度 学 习 的 发 展 过 程 。 我 和 同 在 神经 网 络 领 域 
的 同事 多 年 来 部 未 能 取得 令 人 瞩目 的 成 就 ， 但 坚持 和 耐心 最 终 给 我 们 种 
来 了 回报 。 


























思 “ 啊 ， 美 丽 的 新 世界 ， 有 这 么 美的 人 在 里 头 ! ” CO brave new world that has such people 
in'tl”) 来 自 莎 士 比 亚 的 剧 作 《 骏 风 雨 》 中 米兰 达 的 台词 〈5.1.182-183 [Oxford Standard Authors 
Shakespeare]) . 
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马 文 . 明 斯 基 是 一 位 杰出 的 数学 家 ， 也 是 麻 省 理工 学 院 人 工 智能 实 
验 室 ( 以 下 简称 MIT AI Lab) 出 的 创始 人 之 一 。 创 始 团队 确定 了 这 个 
领域 的 方向 和 文化 。 麻 省 理工 学 院 的 人 工 智能 研究 在 20 世 纪 60 年 代 成 了 
聪明 人 的 阵地 ， 这 在 很 大 程度 上 要 归功 于 明 斯 基 。 他 每 分 钟 冒 出 的 新 点 
子 比 我 认识 的 任何 人 都 多 ， 而 且 能 让 你 相信 他 对 一 个 问题 的 看 法 是 对 
的 ， 尽 管 这 个 看 法 会 让 人 觉得 有 人 悖 常识 。 我 很 钦佩 他 的 大 胆 和 害 智 ， 但 
是 并 不 认同 他 研究 AI 所 选择 的 方向 。 











看 似 徐 单 的 视觉 识别 


积木 世界 (Blocks World) 是 MIT AI Lab 在 20 世 纪 60 年 代 推 出 的 一 
个 项 目 典 范 。 为 了 简化 视觉 问题， 积木 世界 由 和 矩形 积木 组 成 ， 可 以 堆 登 
起 来 组 成 新 的 结构 〈 见 图 2-1) 。 该 项 目的 目标 是 编写 一 个 能 够 理解 命 
令 的 程序 ， 例 如 “找到 一 个 大 的 黄色 积木 并 将 其 放 在 红色 积木 上 面 "*， 并 
规划 出 让 机 器 人 手臂 执行 命令 所 需 的 步骤 。 这 看 起 来 像 小 孩子 玩 的 游 
戏 ， 但 却 需要 编写 一 个 庞大 而 复杂 的 程序 来 实现 。 这 个 程序 后 来 变 得 十 
分 元 长 烦琐 ， 以 至 于 编写 该 程序 的 学 生 特 里 . 维 诡 格 拉 德 〈Terry 
Winograd) 离开 该 实验 宇 之 后 ， 该 程序 因为 错误 百出 ， 频 频 骨 溃 ， 最 终 
被 无 奈 地 放弃 了 。 这 个 看 起 来 很 简单 的 问题 比 任何 人 想象 的 都 要 难得 
多 ， 即 使 成 功 了 ， 也 很 难 把 积木 世界 同 现实 世界 顺利 地 连接 起 来 ， 毕 竟 
在 现实 世界 中 物体 有 不 同 的 形状 、 大 小 和 重量 ， 而 且 并 非 所 有 边 角 都 是 
直角 。 相 比 于 照明 的 方向 和 位 置 都 能 固定 的 可 控 实 验 环 境 ， 在 现实 世界 














中 ， 照 明 可 能 因 地 点 和 时 间 的 不 同 而 发 生 显著 变化 ， 这 极 大 地 增加 了 计 
算 机 物体 识别 任务 的 复杂 性 。 





图 2-1 马 文 。 明 斯 基 在 观察 机 器 人 堆积 木 ( 上 照片 拍摄 于 1968 年 左右 ) 。 积 木 世 界 是 我 们 如 何 与 
世界 交互 的 简化 版 本 ， 但 它 面 对 的 问题 比 任何 人 想象 的 都 要 复杂 得 多 ， 直 到 2016 年 才 通 过 深度 
学 习 解 决 。 





2014460}, MIT AI Lab 获 得 了 来 自 一 个 盏 事 研 究 机 构 的 大 笔 资 
金 ， 伞 要 求 用 于 打造 一 个 可 以 打 兵 乓 球 的 机 器 人 。 我 曾经 听 过 一 个 故 
事 ， 那 就 是 这 个 项 目的 负责 人 筷 了 在 基金 申请 书 中 加 上 为 机 器 人 建立 一 
个 视觉 系统 的 预算 ， 于 是 他 把 这 个 问题 分 配给 了 一 个 研究 生 作 为 暑期 研 
乞 项 目 。 后 来 我 问 马 文 : 明 斯 基 这 个 故事 是 不 是 真 的 。 他 反驳 道 :“ 我 们 
把 那个 问题 分 配给 了 本 科 生 。”MIT 档 案 中 的 一 份 文件 证 实 了 他 的 回 
答 。 轨 这 个 看 上 去 很 容易 解决 的 问题 ， 最 终 被 证 明 是 个 “陷阱 "， 吞 只 
了 整整 一 代 计 算 机 视觉 研究 人 员 的 青春 。 


计算 机 视觉 的 进步 


尽管 物体 的 位 置 、 大 小 、 方 同和 受到 的 光照 不 同 ， 我 们 却 很 少 在 识 
别 物体 时 感到 吃力 。 计 算 机 视觉 研究 中 最 早 的 想法 之 一 是 将 物体 的 模板 
与 图 像 中 的 像素 进行 匹配 ， 但 是 这 种 方法 收效 其 徽 ， 因 为 同一 物体 不 同 
角度 的 两 个 图 像 中 的 像素 并 不 匹配 。 例 如 ， 参 考 图 2-2 中 的 两 只 鸟 。 如 
果 你 将 一 只 乌 的 影像 覆盖 到 另 一 只 马上 ， 你 可 以 找到 一 块 匹 配 的 部 分 ， 
但 其 余部 分 束 完 全 对 不 上 了 ; 但 是 如 末 有 太一 个 种 类 的 乌 相同 姿势 的 图 
像 ， 你 却 可 以 得 到 相当 好 的 匹配 结果 。 


计算 机 视觉 的 进步 是 通过 关注 特征 而 非 像素 来 实现 的 。 例 如 ， 贫 皇 
者 必须 具备 专业 水 平 才能 区 分 只 在 一 些 细微 处 略 有 差异 的 不 同 乌 类 。 一 

















本 关于 鸟 类 鉴别 的 实用 畅销 书 中 只 有 一 张 鸟 的 照片 ， 却 有 许多 示意 图 指 
出 了 各 种 鸟 之 间 的 细微 差别 〈 见 图 2-3) 。 国 一 个 好 的 特征 是 指 一 种 鸟 
类 独 有 的 特征 ， 但 是 如 果 在 别 的 种 类 中 也 可 以 找到 这 些 特 征 ， 那 么 就 要 
靠 避 带 、 眼 纹 和 融 斑 的 独特 标记 组 合 来 区 分 。 当 这 些 标记 组 合 为 近 杀 种 
类 所 共 译 时 ， 束 要 根据 叫 声 和 歌声 进一步 区 分 。 乌 类 的 草图 或 彩绘 能 更 
好 地 将 我 们 的 注意 力 引 导 到 相关 的 区 别 特征 上 ， 相 比 之 下 ， 马 关照 片 里 
则 布 满 了 数 百 个 不 太 相 关 的 特征 。 








[2-2 两 只 斑 胸 草 稚 在 互相 审视 对 方 。 我 们 不 难看 出 它们 是 同一 物种 。 但 是 因为 它们 面 对 镜 头 
的 角度 不 同 ， 所 以 很 难 将 它们 与 模板 对 应 ， 即 使 它们 具有 几乎 相同 的 特征 。 





图 2-3 可 用 于 区 分 相似 鸟 类 的 显著 特征 。 箭 头 指向 的 是 翼 带 的 位 置 ， 对 于 分 辨 营 科 非常 重要 : 
有 的 轮 廊 清晰， 有 的 界线 模糊 ， 有 的 是 双 条 的 ， 有 的 长 ， 有 的 短 。 图 片 来 源 : Peterson, 
Mountfort, and Hollom, Field Guide tothe Birds of Britain and Europe, 5th ed., 

p. 16. 





这 种 基于 特征 的 识别 方法 存在 的 问题 ， 不 仅 在 于 针对 世界 上 数 万 种 
不 同 物 体 开发 特征 检测 器 是 非常 耗费 人 力 的 ， 而 且 即 便 使 用 最 精确 的 特 
征 检测 器 ， 补 部 分 遮挡 住 的 物体 的 图 像 也 会 产生 卜 义 ， 这 使 得 识别 混乱 
场景 中 的 物体 成 了 计算 机 所 面临 的 一 项 艰巨 任务 。 

20 世 纪 60 年 代 ， 没 有 人 能 想到 我 们 要 人 花 上 50 年 ， 计 算 机 的 运算 能 
需要 提升 100 万 倍 ， 才 能 让 计算 机 视觉 达到 人 类 的 水 平 。 当 时 有 一 种 带 
有 误导 性 的 直觉 ， 认 为 编写 计算 机 视觉 程序 很 容易 。 这 种 直觉 是 基于 我 
们 认为 很 简单 的 行为 ， 例 如 看 、 听 、 四 处 走动 一 一 但 这 些 行为 是 经 过 了 
几 百 万 年 的 自然 进化 才 实现 的 。 让 早期 AI 先驱 十 分 眉 恼 的 是 ， 他 们 发 现 
计算 机 视觉 问题 非常 难以 解决 。 相 比 之 下 ， 他 们 发 现 通过 编写 程序 让 计 
算 机 证 明 数 学 定理 要 容易 得 多 一 一 这 个 过 程 曾 被 认为 需要 最 高 水 平 的 智 
能 一 一 因为 计算 机 处 理 逻 辑 问题 的 能 力 比 人 类 要 强 得 多 。 迎 辑 思 维 是 进 
化 后 期 的 产物 ， 即 便 对 于 人 类 ， 也 需要 接受 从 逻辑 命题 到 得 出 严谨 结论 
的 长 期 训练 。 然 而 ， 对 于 大 多 数 我 们 所 面临 的 生存 问题 ， 从 以 往 经 验 中 
总 结 出 的 解决 方案 ， 在 大 部 分 时 间 都 能 发 挥 作用 。 
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20 世 纪 七 八 十 年 代 流 行 的 人 工 智 能 专家 系统 ， 被 开发 用 以 通过 遵循 
一 套 规则 来 解决 医学 诊断 等 问题 。 因 此 ， 一 个 早期 的 专家 系统 
MYCIN， 被 开发 用 于 识别 导致 感染 性 疾病 如 细菌 性 脑膜 炎 的 细菌 。 邮 | 
根据 专家 系统 方法 ，MYCIN 的 开发 者 首先 要 收集 由 传染 病 专家 提供 的 
事实 和 规则 ， 以 及 病人 的 症状 和 病史 ， 然 后 将 信息 输入 系统 中 的 计算 
机 ， 最 后 通过 编写 程序 让 计算 机 使 用 逻辑 进行 推理 。 然 而 ， 开 发 者 在 收 
集 专家 提供 的 事实 和 规则 时 遇 到 了 麻烦 ， 尤 其 是 在 更 复杂 的 领域 ， 最 好 
的 诊断 医师 并 不 依赖 规则 ， 而 是 依靠 难以 编码 的 基于 经 验 的 图 案 识 
别 ， 葬 而 且 他 们 的 系统 必须 随 着 新 发 现 的 诞生 和 旧 规则 的 过 时 而 不 断 
更 新 。 开 发 者 在 收集 和 输入 病人 的 症状 和 病史 信息 时 遇 到 了 更 多 的 困 
难 。 录 入 每 个 病人 的 信息 需要 花 上 半 小 时 或 更 长 的 时 间 ， 忙 碌 的 医生 们 
根本 腾 不 出 这 么 多 时 间 。 因 此 ，MYCIN 从 未 被 应 用 于 临床 是 预料 之 中 
的 事 。 尽 管 有 许多 针对 其 他 应 用 的 专家 系统 被 开发 了 出 来 ， 例 如 有 毒物 
质 泄漏 管理 、 自 动 驾驶 车 辆 的 任务 规划 ， 以 及 语音 识别 等 ， 但 如 今 ， 这 
些 系统 在 实际 生活 中 很 少 被 用 到 。 

研究 人 员 在 人 工 智能 发 展 早期 尝试 了 许多 不 同 的 方法 ， 这 些 方法 通 
常 都 很 巧妙 ， 但 并 不 实用 。 他 们 不 仅 低估 了 现实 世界 问题 的 复杂 性 ， 而 
且 提 出 的 解决 方案 无 法 进行 大 规模 应 用 。 在 复杂 的 领域 中 ， 规 则 的 数量 
可 能 会 非常 庞大 ， 并 且 随 着 新 的 事实 的 出 现 而 不 断 被 添加 ， 跟 踪 所 有 规 
则 的 例外 情况 并 与 之 互动 变 得 十 分 不 切实 际 。 例 如 ， 道 格拉 斯 - 勒 奈 
(Douglas Lena 在 1984 年 启动 了 一 个 名 为 “Cyc” 的 项 目 ， 想 要 将 常识 
代码 化 ， 这 在 当时 似乎 是 一 个 好 主意 ， 但 实际 操作 起 来 却 成 了 一 场 蛋 
梦 。[ 凶 我 们 对 世界 上 的 大 量 事实 都 觉得 理所当然 ， 其 中 大 部 分 都 是 基 
于 经 验 。 例 如 ， 从 40 英 尺 的 高 度 落下 的 猫 可 能 会 毫发 无 损 ， 针 但 是 从 
司 一 高 度 坠 落 的 人 就 不 同 了 。 

早期 AI 进展 得 如 此 缓慢 的 另 一 个 原因 是 ， 数 字 计 算 机 还 处 于 非常 原 




















始 的 阶段 ， 并 且 以 今天 的 标准 来 看 存储 器 成 本 十 分 高 昂 。 但 是 由 于 数字 
计算 机 在 逻辑 运算 、 符 号 操作 和 规则 应 用 方面 非常 高 效 ， 这 些 计 算 原 语 
在 20 世 纪 会 受到 青睐 并 不 令 人 惊讶 。 这 也 促使 了 卡 内 基 - 梅 隆 大 学 
(Carnegie Mellon University) 的 两 位 计算 机 科学 家 艾 伦 : 纽 维 尔 〈Allen 
Newell) FAMA PES? (Herbert Simon) 于 1955 年 写成 了 一 套 名 为 * 逻 
辑 理 论 家 ”的 计算 机 程序 ， 它 可 以 证 明 《数学 原理 》 (Principia 
Mathematica) 一 书 中 的 逻辑 定理 。《 数 学 原理 》 是 阿尔 弗 雷 德 :怀特 海 
德 (Alfred North Whitehead) 和 伯 特 兰 : 罗 素 〈(Bertrand Russell) 尝试 把 
所 有 的 数学 知识 系统 化 的 一 套 书 。 这 一 时 期 ， 人 们 对 于 智能 电脑 即将 到 
来 寄予 了 厚望 。 

那些 试图 编写 具有 人 类 智能 的 计算 机 程序 的 AI 先驱 ， 本 身 并 不 太 关 
心 大 脑 是 如 何 实现 智能 行为 的 。 我 问 艾 伦 : 纽 维尔 其 中 的 缘由 ， 他 告诉 
我 ， 他 本 人 对 大 脑 研 究 的 见解 持 开 放 态 度 ， 但 当时 根本 没有 足够 的 相关 
信息 可 以 借鉴 。 大 脑 功 能 的 基本 原理 在 20 世 纪 50 年 代 才 慢 慢 开始 被 揭 
开 ， 相 关 领 域 的 带头 人 包括 艾 伦 . 霍 奇 金 (Alan Hodgkin) 和 安德鲁 . 赫 
Z£ (Andrew Huxley) ， 他 们 解释 了 大 脑 信 号 是 如 何 通过 神经 中 的 电 
脉冲 来 实现 远 距 离 传 送 的 ， 而 男 一 带头 人 伯 纳 德 : 卡 次 (Bernard Katz) 
则 发 现 了 这 些 电 子 信号 如 何 经 突 触 转化 为 化 学 信号 来 实现 神经 元 间 的 通 
fs, [8] 


到 了 20 世 纪 80 年 代 ， 人 们 对 大 脑 的 了 解 日 益 增 加 ， 并 且 在 生物 学 领 
域 以 外 对 大 脑 的 接触 也 变 得 更 加 广泛 ， 但 对 于 新 一 代 的 AI 研究 人 员 来 
说 ， 大 脑 本 身 已 经 变 得 无 关 紧 要 了 。 他 们 的 目标 是 编写 一 个 程序 ， 使 其 
拥有 和 大 脑 一 样 的 功能 。 在 哲学 里 ， 这 种 立场 被 称 为 "功能 主义 ”， 对 许 
多 人 来 说， 这 是 一 个 可 以 忽略 生物 学 中 杂乱 细节 的 绝 佳 说 秤 。 但 是 一 小 
群 不 属于 主流 群体 的 AI 研究 人 员 认 为 ， 受 大 脑 生 物 学 局 发 的 那些 被 称 
为 “神经 网 络 ” “连接 主义 ”和 “并 行 分 布 处 理 * 的 AI 实 现 方 法 ， 会 最 终 解 
决 困 扰 基 于 逻辑 的 AI 研 究 的 难题 。 我 正 是 那 一 小 群 人 中 的 一 个 。 




















从 神经 网 络 到 人 工 智 能 


1989 年 ，MIT 计 算 机 科学 实验 室 主任 迈克 尔 . 德 图 佐 斯 (Michael 
Dertouzos) 邀请 我 到 MIT 做 一 个 有 关 我 在 基于 神经 网 络 的 人 工 智 能 领域 
采用 的 开拓 性 研究 方法 的 “杰出 学 者 讲座 ”( 图 2-4) 。 到 场 后 ， 我 受到 
了 德 图 佐 斯 的 热情 接待 。 乘 电梯 时 他 告诉 我 : “MIT 有 个 传统 ， 杰 出 学 
者 讲座 的 演讲 者 需要 在 午餐 时 用 5 分 钟 的 时 间 与 教师 和 学 生 一 起 讨论 他 
的 讲座 话题 。 关 而 且 ，” 当 电梯 门 打开 时 ， 他 补充 道 , “他 们 挺 反 感 你 在 
做 的 事情 。” 











图 2-4 我 在 介绍 大 脑 皮 层 的 比例 法 则 ， 那 是 在 1989 年 我 如 入 索 尔 克 生 物 研究 所 〈Salk 
Institute) 不 久 后 。 图 片 来 源 : Ciencia Explicada. 


房间 里 挤 满 了 差不多 一 百人 ， 德 图 佐 斯 也 很 意外 。 科 学 家 们 站 成 一 
个 图， 足 足 有 三 层 : 高 级 教员 在 第 一 层 ， 第 二 层 是 初级 教员 ， 学 生 在 最 
后 一 层 。 我 走 到 圆圈 的 中 心 ， 正 对 着 目 助 餐 的 主 菜 。 我 要 在 这 5 分 钟 里 
说 些 什 么 ， 才 能 让 那些 讨 大 我 工作 的 人 改变 想法 呢 ? 








我 开始 即兴 发 挥 , “食物 上 这 只 苍蝇 的 大 脑 只 有 10 万 个 神经 元 ; 它 
大 概 重 1 毫克 ， 要 消耗 1 毫 瓦 的 能 量 ，” 我 边 说 边 驱 赶 苍蝇 , “苍蝇 能 
fe K, HUA OMe RTA, WHE. (ARATE, CA 
通过 繁殖 来 进行 自我 复制 。MIT 拥 有 一 台 价 值 1 亿 美元 的 超级 计算 机 : 
它 消 耗 的 能 量 是 兆 瓦 级 的 ， 并 需要 一 台 巨 型 空调 进行 冷却 。 但 是 ， 超 级 
计算 机 的 最 大 成 本 是 要 消耗 大 量 人 力 ， 也 就 是 说 程序 员 要 满足 它 对 程序 
的 巨大 需求 。 这 人 台 超 级 计算 机 不 能 看 ， 不 能 飞 ， 虽 然 它 能 与 其 他 计算 机 
交流 ， 但 它 不 能 交配 或 自我 复制 。 看 得 出 这 个 场景 描述 里 有 什么 问题 
mo” 

在 一 段 长 时 间 的 沉默 之 后 ， 一 位 高 级 教员 说 道 : “因为 我 们 还 没有 
编写 视觉 程序 。”( 美 国 国防 部 最 近 向 其 战略 计算 计划 注入 了 6 亿美 元 ， 
这 项 计划 在 1983 一 1993 年 间 运 行 ， 但 是 缺少 了 为 自动 驾驶 坦克 创建 的 视 
觉 系 统 ) 。 闻 我 的 回答 是 “ 祝 你 好 运 ”。 


在 座 的 有 杰 拉 德 . 苏 斯 曼 (Gerald Sussman) ， 他 为 用 人 工 智能 解决 
现实 世界 的 问题 做 出 了 几 个 重要 的 应 用 ， 其 中 包括 高 精度 轨道 力学 积分 
系统 ， 为 MIT 致 敬 图 灵 经 典 杰 作 的 AI 实 现 方法 挽回 了 尊严 (图 灵 曾 证 明 
图 灵机 ， 即 一 个 思维 实验 ， 可 以 计算 任何 可 计算 的 函数 ) 。“ 那 需要 多 
长 时 间 ? ”我 问 。“ 你 最 好 算 快 一 点 ， 否 则 就 要 有 了 打 烦 了 。” 我 补充 道 ， 
然后 走 到 房间 另 一 头 给 自己 倒 了 一 杯 咖啡 。 我 与 教员 的 对 话 就 这 样 结束 
Js 


“这 个 场景 出 了 什么 问题 ? ”是 我 实验 室 的 每 个 学 生 都 能 回答 的 问 
题 。 但 是 在 午餐 时 间 ， 前 两 排 观众 都 被 难 倒 了 。 最 后 ， 第 三 排 的 一 名 学 
生 这 样 回 答 : “数字 计算 机 是 一 种 通用 设备 ， 它 可 以 被 编程 来 计算 任何 
东西 ， 昌 然 效率 很 低 ， 但 苍蝇 是 一 种 专用 计算 机 ， 可 以 看 和 飞 ， 但 无 法 
平衡 我 的 账户 收文 。” 这 束 是 正确 答案 。 人 苍蝇 眼中 的 视觉 网 络 进化 了 数 
亿 年 ， 其 视觉 算法 嵌入 了 它 本 映 的 网 络 。 这 就 是 为 什么 你 可 以 利用 苍蝇 
眼神 经 回路 的 布线 图 和 信息 流 对 视觉 系统 进行 逆向 工程 ， 以 及 为 什么 你 
不 能 在 数字 计算 机 上 这 样 做 ， 因 为 硬件 本 喘 需 要 软件 来 指定 要 解决 什么 
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问题 。 
我 认 出 了 在 人 群 中 微笑 的 罗 德 尼 : 布 鲁 克 斯 (Rodney Brooks) . dX 
曾经 邀请 他 参加 在 马 陵 诸 塞 州 鳃 鱼 角 的 伍兹 霍 尔 市 CWoods Hole) 举办 
的 计算 神经 科学 研讨 人 会。 布鲁克 斯 是 澳大利亚 人 ，20 世 纪 80 年 代 ， 他 是 
MIT AI Lab 的 初级 教员 。 那 段 时 间 他 使 用 不 依赖 数字 逻辑 的 构架 搭建 了 
ftr ERLEA. fh ec I cus. Bü X ele FT h 
Roombas 的 公司 ijRobot。 


那天 下 午 我 做 演讲 的 房间 很 大 ， 挤 满 了 本 科 生 ， 新 生 代 想 要 展望 未 
来 ， 而 不 是 徘徊 在 过 去 。 我 谈 到 了 一 个 学 习 如 何 玩 西 洋 双 陆 棋 的 神经 网 
络 ， 这 是 一 个 与 伊利 话 伊 大 学 香槟 分 校 (the University of Illinois in 
Urbana-Champaign) 复杂 系统 研究 中 心 (Center for Complex Systems 
Research) 的 物理 学 家 杰 拉 德 : 特 索 罗 〈(Gerald Tesauro) 合作 的 项 目 。 西 
洋 双 陆 棋 是 两 名 玩家 之 间 的 比 完 ， 棋 子 根据 撕 骨 子 的 点 数 回 前 移动 ， 在 
途中 可 以 跳 过 对 方 的 棋子 。 与 具有 确定 性 的 国际 象棋 不 同 ， 西 洋 双 陆 棋 
是 由 偶然 因素 控制 的 : 每 次 括 骨 子 的 不 确定 性 都 使 得 对 特定 棋 步 结果 的 
预测 更 加 困难 。 这 是 一 蒜 在 中 东 地 区 非常 受 欢 迎 的 游戏 ， 其 中 一 些 人 以 
玩 高 赌注 的 比赛 为 生 。 


考虑 到 有 1020 个 可 能 的 西洋 双 陆 棋 棋盘 摆 法 ， 基 于 逻辑 和 试探 法 编 
写 程序 来 处 理 所 有 可 能 的 摆 法 将 会 是 一 个 不 可 能 完成 的 任务 。 于 是 ， 我 
们 让 神经 网 络 观看 教师 对 局 ， 通 过 模式 识别 来 学 习 下 棋 。 呈 中 杰 拉 德 后 
来 让 西洋 双 陆 棋 网 络 通过 跟 自己 下 棋 进 行 学 习 ， 创 建 了 第 一 个 世界 冠军 
级 别 的 西洋 双 陆 棋 程 序 〈 第 10 章 会 详细 讲述 这 个 故事 ) 。 

演讲 结束 之 后 ， 我 听 说 那天 早上 《纽约 时 报 》 有 一 篇 关于 政府 机 构 
如 何 大 幅 削 减 人 工 智能 资金 投入 的 头 版 文章 。 虽 然 对 主流 AI 研究 人 员 来 
说 ， 寒 冬 已 经 来 临 ， 但 它 并 没有 影响 到 我 和 我 的 研究 组 成 员 ， 对 我 们 来 
说 ， 神 经 网 络 的 春天 才刚 刚 到 来 。 

然而 我 们 新 的 AI 实现 方法 需要 25 年 的 时 间 才 能 在 视觉 、 语 音 和 语言 




















方面 提供 实际 应 用 。 即 使 在 1989 年 ， 我 也 知道 这 需要 很 长 时 间 。1978 
年 ， 我 还 在 普林斯顿 大 学 读 研 究 生 时 就 在 想 ， 按 照 摩尔 定律 ， 计 算 机 的 
运算 能 力 会 呈 指 数 级 增长 ， 每 18 个 月 翻 一 番 ， 那 达到 大 脑 的 计算 能 力 需 
要 多 长 时 间 ? 我 的 结论 是 ， 到 2015 年 会 实现 。 笠 运 的 是 ， 这 并 没有 阻止 
我 继续 探索 。 我 对 神经 网 络 的 信仰 是 基于 我 的 直觉 ， 即 如 果 大 目 然 解 诀 
了 这 些 问 题 ， 我 们 也 应 该 能 够 从 大 自然 中 学 习 到 同样 的 解决 方法 。 而 我 
不 得 不 耐心 等 待 的 这 25 年 ， 与 自然 界 的 数 亿 年 相 比 ， 它 仅仅 只 是 一 个 瞬 
间 。 

在 视觉 皮层 内 部 ， 神 经 元 呈 多 层次 排列 结构 。 随 着 感官 信息 在 皮层 
间 层 层 传递 ， 对 世界 的 呈现 也 变 得 越 来 越 抽 象 。 几 十 年 来 ， 随 着 神经 网 
络 模型 层 数 的 增加 ， 其 性 能 也 在 不 断 提 高 ， 直 到 最 终 达 到 了 一 个 临界 
点 ， 让 我 们 能 够 解决 在 20 世 纪 80 年 代 只 能 约 想 却 无 法 解决 的 问题 。 深 度 
学 习 可 以 自动 找 出 能 区 分 图 像 中 不 同 物体 的 优质 特征 的 过 程 ， 这 就 是 今 
天 的 计算 机 视觉 比 5 年 前 好 得 多 的 原因 。 

到 2016 年 ， 计 算 机 的 运行 速度 已 经 快 了 上 百 万 倍 ， 计 算 机 内 存 也 从 
兆 字 节 升 级 到 了 太 字 节 (terabytes) 。 与 20 世 纪 80 年 代 只 有 数 百 个 单元 
和 数 千 个 连接 的 网 络 相 比 ， 现 在 模拟 出 的 神经 网 络 具 有 数 百 万 个 单元 和 
数 十 亿 个 连接 。 尽 管 按照 拥有 数 千 亿 个 神经 元 和 和 于 万 亿 个 突 触 连 接 的 人 
类 大 脑 的 标准 来 看 ， 这 个 数字 仍然 很 小 ， 但 现 有 神经 网 络 的 规模 已 经 可 
以 在 有 限 领 域 中 进行 原理 的 证 明 。 


基于 深度 神经 网 络 的 深度 学 习 已 经 出 现 了 ， 但 在 有 深度 网 络 之 前 ， 
我 们 必须 学 习 如 何 训练 浅 层 网 络 。 



































[1] 虽然 直到 1970 年 才 正 式 成 立 ， 抹 省 理工 学 院 人 工 智 能 实验 室 (MIT AI Lab) 于 1959 年 
就 开始 了 相关 的 研究 项 目 ， 并 于 2003 年 跟 麻 省 理工 学 院 计 算 机 科学 实验 室 (LCS) 合并 ， 组建 
了 麻 省 理工 学 院 计算 机 科学 与 人 工 智 能 实验 室 (CSAIL) 。 为 了 保持 简洁 和 一 致 性 ， 我 把 该 机 
构 统 称 为 “MIT AI Lab". 
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Michaela Ennis 的 说 法 :“ 有 关 麻 省 理工 学 院 本 科 生 被 安排 将 “计算 机 视觉 :作为 暑期 研究 项 目的 故 
a, WERE oe rei (Patrick Winston) 教授 每 年 都 会 拿 到 课堂 上 讲 ， 他 还 说 过 这 个 本 科 生 就 
是 杰 拉 德 : 苏 斯 曼 (Gerald Sussman) > ” 
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03 
神经 网 络 的 黎明 


任何 人 工 智 能 的 难题 都 可 以 被 解决 。 唯 一 能 证 明 这 一 论断 成 立 的 是 
这 样 一 个 事实 : 自然 界 通 过 进化 已 经 解决 了 这 些 难 题 。 但 在 20 世 纪 50 年 
代 就 已 经 存在 各 种 上 暗示， 如 果 AI 研 究 者 能 够 选择 完全 不 同 于 符号 处 理 的 
方式 ， 计 算 机 会 如 何 表 现 出 智能 行为 。 

第 一 条 暗示 是 ， 我 们 的 大 脑 是 强大 的 模式 识别 器 。 我 们 的 视觉 系统 
可 以 在 110 秒 内 识别 混乱 场景 中 的 对 象 ， 即 使 我 们 可 能 从 未 见 过 那个 特 
定 的 对 象 ， 也 不 论 该 对 象 在 什么 位 置 ， 多 大 尺寸 ， 以 什么 角度 面 对 我 
们 。 简 而 言 之 ， 我 们 的 视觉 系统 就 像 一 台 以 “识别 对 象 ” 作 为 单一 指令 的 
计算 机 。 

第 二 条 暗示 是 ， 我 们 的 大 脑 可 以 通过 练习 来 学 会 如 何 执行 知 干 艰巨 
的 任务 ， 比 如 弹 钢 难 、 掌 握 物 理学 知识 。 大 上 自然 使 用 通用 的 学 习 方 法 来 
解决 特殊 的 问题 ， 而 人 类 则 是 顶尖 的 学 习 者 。 这 是 我 们 的 特殊 能 力 。 我 
们 大 脑 皮 层 的 结构 整体 上 是 相似 的 ， 并 且 我 们 所 有 的 感受 系统 和 运动 系 
统 都 有 深度 学 习 网 络 。 世 | 

第 三 条 上 暗示 是 ， 我 们 的 大 脑 并 没有 充斥 着 逻辑 或 规则 。 当 然 ， 我 们 
可 以 学 习 逻 辑 思 维 或 遵守 规则 ， 但 必须 要 经 过 大 量 的 训练 ， 而 我 们 当中 
的 大 多 数 人 对 此 并 不 在 行 。 这 一 点 可 以 通过 人 们 在 一 个 叫 作 “ 华 生 选 择 
任务 ”(Wason selection task) 的 逻辑 谜 题 上 的 典型 表现 来 进行 说 明 〈 见 
图 3-1) 。 














图 3-1 这 四 张 卡片 ， 每 张 都 是 一 面 有 数字 ， 另 一 面 涂 满 了 颜色 。 要 测试 以 下 命题 为 真 : 一 张 卡 
片 在 一 面 显 示 为 偶数 ， 那 它 的 另 一 面 就 是 红色 的 。 你 需要 翻 哪 OL) 张 牌 呢 ? 图 片 来 源 : "4 
生 选 择 任务 ”， 维 基 百 科 。 


正确 的 选择 是 正面 为 数字 “8”， 背 面 为 棕色 的 卡片 。 在 最 初 的 研究 
中 ， 只 有 10% 的 受 试 者 给 出 了 正确 的 答案 。[24 但 是 ， 当 给 这 项 逻辑 测 
试 加 上 了 熟悉 的 背景 信息 时 ， 大 多 数 受 试 者 都 能 很 快 找 出 正确 答案 ( 见 
区 3-2).; 

推理 似乎 是 基于 特定 领域 的 ， 我 们 对 该 领域 越 熟悉 ， 就 越 容易 解决 
其 中 的 问题 。 经 验 使 得 在 一 个 领域 内 进行 推理 变 得 更 容易 ， 因 为 我 们 可 
以 用 已 有 的 例子 来 下 意识 地 得 到 解决 方案 。 例 如 ， 在 物理 学 中 ， 我 们 通 
过 解决 各 种 问题 ， 而 不 是 通过 背诵 公式 ， 来 学 习 电 磁 学 领域 的 知识 。 如 




















果 人 类 的 智能 是 完全 基于 逻辑 的 ， 那 么 它 应 该 是 路 领域 的 通用 智能 ， 但 
事实 并 非 如 此 。 





图 3-2 每 张 卡片 都 是 一 面 有 一 个 年 龄 数字 ， 另 一 面 印 着 一 种 饮料 。 需 要 翻 哪 〈 几 ) 张 牌 才 能 检 
验 这 条 法 律 : 如 果 你 正在 喝酒 ， 那 说 明 你 一 定 超 过 18 岁 了 ? 图 片 来 源 : “ 华 生 选 择 任务 ”， 维 
KG Ft. 





第 四 条 暗示 是 ， 我 们 的 大 脑 充 满 了 数 百 亿 个 小 小 的 神经 元 ， 每 时 每 
刻 都 在 互相 传递 信息 。 这 表明 ， 要 解决 人 工 智 能 中 的 难题 ， 我 们 应 该 研 
完 具 有 大 规模 并 行 体系 结构 的 计算 机 ， 而 不 是 那些 具有 冯 : 话 依 曼 数 字 
体系 结构 ， 每 次 只 能 获取 和 执行 一 个 数据 或 指令 的 计算 机 。 是 的 ， 图 灵 
机 在 被 给 予 足 够 内 存 和 时 间 的 条 件 下 ， 的 确 可 以 计算 任何 可 计算 的 函 
数 ， 但 上 自然界 必须 实时 解决 问题 。 要 做 到 这 一 点 ， 它 利用 了 大 脑 的 神经 
网 络 ， 就 像 地 球 上 最 强大 的 计算 机 一 样 ， 它 们 具有 大 量 的 并 行 处 理 器 。 
只 有 能 有 效 运行 的 算法 ， 最 终 才 能 在 自然 选择 中 胜出 。 








深度 学 习 的 起 反 


20 志 纪 五 六 十 年 代 ， 在 诺 伯 特 : 维 纳 (Norbert Wiener) 提出 基于 机 
器 和 生物 中 的 通信 和 控制 系统 的 控制 论 之 后 不 入， 二 学 界 对 自 组 织 系 
统 开 始 产生 了 浓厚 的 兴趣 。 而 其 中 一 个 独创 性 产物 便 是 由 奥利弗 . 塞 弗 
里 奇 (Oliver Selfridge) 创造 的 Pandemonium (Hm) 。 团 这 是 一 个 图 
案 识 别 设备 ， 其 中 进行 特征 检测 的 “恶魔 ?通过 互相 竞争 ， 来 争取 代表 图 
像 中 对 象 的 权利 (深度 学 习 的 隐喻 ， 见 图 3-3〉 。 斯 坦 福 大 学 的 伯 纳 德 : 
RES (Bernard Widrow) 和 他 的 学 生 泰 德 : 霍 夫 (Ted Hoff) 发 明了 
LMS (最 小 均 方 ) 学 习 算 法 ， 轩 | 它 与 其 后 继 算法 一 起 被 广泛 用 于 自 适 
应 信号 处 理 ， 例 如 噪声 消除 、 财 务 预测 等 应 用 。 在 这 里 ， 我 将 重点 关注 
一 位 先驱 弗兰克 .: 罗 森 布 拉 特 (Frank Rosenblatt) (图 3-4) ， 他 发 明 的 
感知 器 是 深度 学 习 的 前 身 。 罗 | 





认 知 恶魔 





图 3-3 Pandemonium。 奥 利 弗 。 塞 弗 里 奇 认为 ， 大 脑 中 有 恶魔 负责 从 感官 输入 中 先后 提取 更 复杂 
的 特征 和 抽象 概念 ， 从 而 做 出 决定 。 如 果 每 个 级 别 的 恶魔 与 前 一 个 级 别 的 输入 相 匹 配 ， 则 会 激 
动 不 已 。 做 决定 的 恶魔 需要 衡量 所 有 信息 传递 者 的 兴奋 程度 和 重要 性 。 这 种 形式 的 证 据 评 估 是 
对 当前 多 层次 深度 学 习 网 络 的 隐喻 。 图 片 来 源 : Peter H. Lindsay and Donald A. Norman, 
Human Information Processing: An Introduction to Psychology, 2nded. (New York: 
Academic Press, 1977), [3-1. EX XL EE JR: 

https://commons. wikimedia. org/wiki/Fi le:Pande. jpg. 
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Psychologist Shows Embryo 
of Computer Designed to 


Read and Grow Wiser | 


WASHINGTON, July. 7 (UPI) 
一 The Navy revealed the em- 
bryo of an electronic computer 
today that it expects will be 
able to walk, talk, see, write, 
reproduce itself and be con- 
scious of its existence, 

The ror Tg Weather 
Bureau's $2, 


Dr. Rosenblatt, a research 
at the -Cornell 

Aeronautical Laboratory, Buf- 
falo, said Perceptrons might be 
fired to the planets as mechani- 


cal space explorers.” 

图 3-4 深思 中 的 康 奈 尔 大 学 教授 弗兰克 。 罗 森 布 拉 特 ， 他 发 明了 感知 器 。 作 为 深度 学 习 网 络 的 
早期 锥 形 ， 感 知 器 是 能 够 将 图 像 进 行 分 类 的 简易 学 习 算 法 。 图 中 文章 是 1958 年 7 月 8 日 在 《纽约 
时 报 》 上 发 表 的 一 篇 来 自 合 众 国 际 社 CUPL) 的 报道 。 感 知 器 在 1959 年 完成 时 预计 花费 了 10 万 美 
元 ， 相 当 于 今天 的 100 万 美元 。1BM704 计 算 机 在 1958 年 价值 200 万 美元 ， 相 当 于 现在 的 2000 万 美 
元 ， 可 以 实现 每 秒 12000 次 的 乘法 运算 ， 这 在 当时 已 经 是 极 快 的 速度 了 。 不 过 相 比 之 下 ， 现 在 价 
ee eee S6 手 机 每 秒 可 以 执行 340 亿 次 操作 ， 速 度 要 快 100 万 售 以上。 图片 来 

i$: George Nagy. 





从 样本 中 学 习 


尽管 我 们 对 大 脑 功 能 缺乏 足够 的 了 解 ， 但 神经 网 络 的 AI 先驱 们 依然 
依靠 着 神经 元 的 绘图 以 及 它们 相互 连接 的 方式 ， 进 行 着 艰难 的 摸索 。 康 
奈 尔 大 学 的 弗兰克 : 罗 和 森 布 拉 特 是 最 早 模仿 人 体 自 动 图 案 识 别 视 谢 系统 
架构 的 人 之 一 。 交 他 发 明了 一 种 看 似 简单 的 网 络 感知 器 
(perceptron) ， 这 种 学 习 算 法 可 以 学 习 如 何 将 图 案 进 行 分 类 ， 例 如 识 
别 字 母 表 中 的 不 同 字 母 。 算 法 是 为 了 实现 特定 目标 而 按 步 又 执行 的 过 
Re, URS BERN BEE CRTR, A EBB ET SP 
绍 ) 。 

如 果 你 了 解 了 感知 器 如 何 学 习 图 案 识 别 的 基本 原则 ， 那 么 你 在 理解 
深度 学 习 工 作 原 理 的 路 上 已 经 成 功 了 一 半 。 感 知 器 的 目标 是 确定 输入 的 
图 案 是 否 属于 图 像 中 的 某 一 类 别 ( 比 如 猫 ) 。 方 框 3.1 解 释 了 感知 器 的 
输入 如 何 通 过 一 组 权重 ， 来 实现 输入 单元 到 输出 单元 的 转换 。 权 重 是 对 
每 一 次 输入 对 输出 单元 做 出 的 最 终 决 定 所 产生 影响 的 度量 ， 但 是 我 们 如 
何 找到 一 组 可 以 将 输入 进行 正确 分 类 的 权重 呢 ? 


工程 师 解决 这 个 问题 的 传统 方法 ， 是 根据 分 析 或 特定 程序 来 手动 设 
定 权重 。 这 需要 耗费 大 量 人 力 ， 而 且 往往 依赖 于 直觉 和 工程 方法 。 另 一 
种 方法 则 是 使 用 一 种 从 样本 中 学 习 的 自动 过 程 ， 和 我 们 认识 世界 上 的 对 
象 的 方法 一 样 。 需 要 很 多 样本 来 训练 感知 器 ， 包 括 不 属于 该 类 别 的 反面 
样本 ， 特 别 是 和 目标 特征 相似 的 ， 例 如 ， 如 果 识别 目标 是 猫 ， 那 么 狗 就 
是 一 个 相似 的 反面 样本 。 这 些 样本 被 逐个 传递 给 感知 器 ， 如 果 出 现 分 类 
错误 ， 算 法 就 会 自动 对 权重 进行 校正 。 

这 种 感知 器 学 习 算法 的 美妙 之 处 在 于 ， 如 果 已 经 存在 这 样 一 组 权 
重 ， 并 且 有 足够 数量 的 样本 ， 那 么 它 肯定 能 自动 地 找到 一 组 合适 的 权 
重 。 在 提供 了 训练 集中 的 每 个 样本 ， 并 且 将 输出 与 正确 答案 进行 比较 
后 ， 感 知 器 会 进行 递 进 式 的 学 习 。 如 果 答案 是 正确 的 ， 那 么 权重 就 不 会 
发 生变 化 。 但 如 果 答案 不 正确 〈0 被 误 判 成 了 1， 或 1 被 误 判 成 了 0) ， 权 
重 就 会 被 略微 调整 ， 以 便 下 一 次 收 到 相同 的 输入 时 ， 它 会 更 接近 正确 答 
案 (见方 框 3.1) 。 这 种 渐进 的 变化 很 重要 ， 这 样 一 来 ， 权 重 就 能 接收 






































来 自 所 有 训练 样本 的 影响 ， 而 不 仅仅 是 最 后 一 个 。 





Wo (t) = 0 


感知 器 是 具有 单一 人 造 神经 元 的 神经 网 络 ， 它 有 一 个 输入 层 ， 
和 将 输入 单元 和 输出 单元 相连 的 一 组 连接 。 感 知 器 的 目标 是 对 提供 
给 输入 单元 的 图 案 进行 分 类 。 输 出 单元 执行 的 基本 操作 是 ， 把 每 个 
输入 (xn) 与 其 连接 强度 或 权重 (w) 相 乘 ， 并 将 乘积 的 总 和 传递 
给 输出 单元 。 上 图 中 ， 输 入 的 加 权 和 Fi=1,..n wi xp SBA 
行 比较 后 的 结果 被 传递 给 阶 跃 函数 。 如 果 总 和 超过 闵 值 ， 则 阶 跃 函 
数 输出 “1"， 和 否则 输出 “0*。 例 如 ， 输 入 可 以 是 图 像 中 像素 的 强度 ， 
或 者 更 常见 的 情况 是 ， 从 原始 图 像 中 提取 的 特征 ， 例 如 图 像 中 对 象 
的 轮廓 。 每 次 输入 一 个 图 像 ， 感 知 器 会 判定 该 图 像 是 否 为 某 类 别 的 
成 员 ， 例 如 猫 类 。 输 出 只 能 是 两 种 状态 之 一 ， 如 果 图 像 处 于 类 别 
中 ， 则 为 < 开 ”， 否 则 为 “ 关 ”"。“ 开 > 和 *“ 关 ”分 别 对 应 二 进 制 值 中 的 1 和 
0。 感 知 器 学 习 算法 可 以 表达 为 : 


ówj=0ôXj 





ó=output-teacher, 


XE, output (输出 值 ) 和 teacher (实际 值 ) 都 是 二 进 制 的 ， 
所 以 根据 差 值 ， 如 果 输 出 正确 ，6=0， 如 果 输 出 不 正确 ，6=+1 或 者 - 


1. 
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更 简洁 的 几何 方法 ， 来 理解 感知 器 如 何 学 习 对 输入 进行 分 类 。 对 于 只 有 
两 个 输入 单元 的 特殊 情况 ， 可 以 在 二 维 图 上 用 点 来 表示 输入 样本 。 每 个 
输入 都 是 图 中 的 一 个 点 ， 而 网 络 中 的 两 个 权重 则 确定 了 一 条 直线 。 感 知 
器 学 习 的 目标 是 移动 这 条 线 ， 以 便 清 楚 地 区 分 正 负 样本 《〈 见 图 3-5) 。 
对 于 有 三 个 输入 单元 的 情况 ， 输 入 空间 是 三 维 的 ， 感 知 器 会 指定 一 个 平 
面 来 分 隔 正 负 训 练 样本 。 在 一 般 的 情况 下 ， 即 使 输入 空间 的 维度 可 能 相 
当 高 且 无 法 可 视 化 ， 同 样 的 原则 依然 成 立 。 








图 3-5 关于 感知 器 如 何 区 分 两 个 对 象 类 别 的 几何 解释 。 这 些 对 象 有 两 个 特征 ， 例 如 尺寸 和 亮 
度 ， 它 们 依据 各 自 的 坐标 值 (x，y) 被 绘制 在 每 张 图 上 。 左 边 图 中 的 两 种 对 象 〈 加 号 和 正方 
A) 可 以 通过 它们 之 间 的 直线 分 隔 开 ; 感知 器 能 够 学 习 如 何 进行 这 种 区 分 。 其 他 两 个 图 中 的 两 
种 对 象 不 能 用 直线 隔 开 ， 但 在 中 间 的 图 中 ， 两 种 对 象 可 以 用 曲线 分 开 。 而 右 侧 图 中 的 对 象 必 须 
舍弃 一 些 样本 才能 分 隔 成 两 种 类 型 。 如 果 有 足够 的 训练 数据 ， 深 度 学 习 网 络 就 能 够 学 习 如 何 对 
这 三 个 图 中 的 类 型 进行 区 分 。 





最 终 ， 如 果 解 决 方案 是 可 行 的 ， 权 重 将 不 再 变化 ， 这 意味 独 感 知 器 
己 经 正确 地 将 训练 集中 的 所 有 样本 进行 了 分 类 。 但 是 ， 在 所 谓 的 “过 度 
WS” Coverfitting) 中 ， 也 可 能 没有 足够 的 样本 ， 网 络 仅仅 记 住 了 特定 
的 样本 ， 而 不 能 将 结论 推广 到 新 的 样本 。 为 了 避免 过 度 拟 合 ， 关 键 是 要 





有 另 一 套 样 本 ， 称 为 “测试 集 ”(test set) ， 它 没有 被 用 于 训练 网 络 。 训 
练 结束 时 ， 在 测试 集 上 的 分 类 表现 ， 就 是 对 感知 器 是 否 能 够 推广 到 类 别 
未 知 的 新 样本 的 真实 度量 。 泛 化 Cgeneralization). 是 这 里 的 关键 概念 。 
在 现实 生活 中 ， 我 们 几乎 不 会 在 同样 的 视角 看 到 同一 个 对 象 ， 或 者 反复 
遇 到 同样 的 场景 ， 但 如 果 我 们 能 够 将 以 前 的 经 验 泛 化 到 新 的 视角 或 场景 
中 ， 我 们 就 可 以 处 理 更 多 现实 世界 的 问题 。 


利用 感知 如 区 分 性 别 


举 一 个 用 感知 器 解决 现实 世界 问题 的 例子 。 想 想 如 果 去 抒 头 发 、 首 
饰 和 第 二 性 征 ， 比 如 男性 比 女 性 更 为 突起 的 喉 结 ， 该 如 何 区 分 男性 和 女 
性 的 面部 。 比 阿 特 丽 斯 :哥伦布 (Beatrice Golomb) 是 1990 年 我 实验 室 
里 的 一 名 博士 后 研究 员 ， 她 利用 一 个 数据 库 中 的 大 学 生 面 部 照片 作为 感 
知 器 的 输入 ， 经 过 训练 的 感知 器 能 以 81% 的 准确 度 对 面部 的 性 别 进行 分 
类 ( 见 图 3-6) 。[ 引 而 对 于 感知 器 难以 分 类 的 面部 ， 人 类 也 同样 很 难 做 
出 区 分 。 我 实验 室 的 成 员 在 同一 组 人 的 面部 识别 上 达到 了 88% 的 平均 准 
确 度 。 比 阿 特 丽 斯 还 训练 了 多 层 感 知 器 (将 在 第 8 章 中 介绍 ) ， 其 准确 
PEAS) 792%, MI 比 我 实验 室 的 成 员 还 要 准确 。 她 在 1991 年 的 NIPS 大 
SERRATE Ba: “经 验 可 以 提高 性 能 ， 这 表明 实验 室 的 研究 
人 员 需 要 人 花 更 多 时 间 来 进行 性 别 鉴定 的 工作 。? 她 把 她 的 多 层 感 知 器 叫 
作 *SEXNET”(〈 性 别 网 络 ) 。 在 问答 环节 ， 有 人 问 是 否 可 以 使 用 
SEXNET 来 检测 异 装 癖 者 的 面孔 。“ 可 以 。” 比 阿 特 丽 斯 这 样 回答 。 而 
NIPS 大 会 的 创始 人 爱德华 -波斯 纳 (Edward Posner) 辩驳 道 :“ 那 就 应 该 
HIDRAGNET (法 网 ) . » H0] 


























[3-6 这 张 脸 属于 男性 还 是 女性 ?人 们 通过 训练 感知 器 来 辨别 男性 和 女性 的 面孔 。 来 自 面部 图 
像 (LA) 的 像素 乘 以 相应 的 权重 〈 下 图 ) ， 并 将 该 乘积 的 总 和 与 国 值 进行 比较 。 每 个 权重 的 
大 小 被 描绘 为 不 同 颜 色 像 素 的 面积 。 正 值 的 权重 (和 白色 ) 表现 为 男性 ， 负 值 的 权重 《黑色 ) ff 
GTa. FRR, ATAR ZA RAKD, 以 及 眼睛 区 域 周转 的 图 像 强度 对 于 区 分 男性 
很 重要 ， 而 嘴 和 额 骨 周围 的 图 像 强 度 对 于 区 分 女性 更 重要 。 图 片 来 源 : M. S. Gray, D. T. 
Lawrence, B. A. Golomband T. J. Sejnowski, “A Perceptron Revealsthe Face of Sex, 
Neural Computation7 (1995):1160-1164, F1. 


» 


区 分 男性 与 女性 面部 的 工作 有 趣 的 一 点 是 ， 虽 然 我 们 很 擅长 做 这 种 
区 分 ， 却 无 法 确切 地 表述 男女 面部 之 间 的 大 异 。 由 于 没有 申 一 特征 套 决 

定性 的 ， 因 此 这 种 模式 识别 问题 要 依赖 于 将 大 量 低级 特征 的 证 据 结 合 起 
来 。 感 知 器 的 优点 在 于 ， 权 重 提供 了 对 性 别 区 分 最 有 帮助 的 面部 的 线 
索 。 令 人 惊讶 的 是 ， 人 中 〔 即 蜡 子 和 嘴 层 之 间 的 部 分 ) 是 最 显著 的 特 
征 ， 大 多 数 男性 人 中 的 面积 更 大 。 眼 睛 周围 的 区 域 (男性 较 大 ) AE 








《女性 较 大 ) 对 于 性 别 分 类 也 有 着 很 高 的 信息 价值 。 感 知 器 会 权衡 来 自 
所 有 这 些 位 置 的 证 据 来 做 出 决定 ， 我 们 也 是 这 样 来 做 判定 的 ， 尽 管 我 们 
可 能 无 法 摘 述 出 到 展 是 怎么 做 到 的 。 

1957 年 罗 森 布 拉 特 对 “感知 器 收敛 定理 ”的 证 明 是 一 个 突破 ， 他 的 演 
示 令 人 印象 深刻 。 在 美国 海军 研究 办 公 室 COffice of Naval Research) 的 
文 持 下 ， 他 搭建 了 一 个 以 400 个 光电 单元 作为 输入 的 定制 硬件 模拟 计算 
机 ， 其 权重 是 由 电机 调整 的 可 变 电 阻 电位 器 。 模 拟 信 和 号 随 着 时 间 连 续 变 
化 ， 就 像 黑 胶 唱 斤 中 的 信号 一 样 。 用 一 组 图 乒 集 〈 其 中 部 分 图 片 中 有 坦 
w RISORA) 进行 训练 ， 罗 森 布 拉 特 的 感知 器 即使 在 新 图 像 

中 也 能 准确 识别 坦克 。 这 一 成 果 经 《纽约 时 报 》 报 道 后 引起 了 和 胡 动 ( 见 
图 3-4) , LU 


感知 器 激发 了 对 高 维 空间 中 模式 分 离 的 美妙 的 数学 分 析 。 当 那些 点 
存在 于 有 数 千 个 维度 的 空间 中 时 ， 我 们 就 无 法 依赖 在 生活 的 三 维 空间 里 
对 点 和 点 之 间距 离 的 直觉 。 俄 罗斯 数学 家 上 弗 拉 基 米 尔 : 瓦 普 尼 元 

(Vladimir Vapnik) 在 这 种 分 析 的 基础 上 引入 了 一 个 分 类 器 ， 称 为 “ 文 
持 向 量 机 ”(Support Vector Machine) ， 卫 它 将 感知 器 泛 化 ， 并 被 大 量 
用 于 机 器 学 习 。 他 找到 了 一 种 自动 寻找 平面 的 方法 ， 能 够 最 大 限度 地 将 
两 个 类 别 的 点 分 开 〈 见 图 3-5， 线 性 ) 。 这 让 泛 化 对 空间 中 数据 点 的 测 
量 误差 容忍 度 更 大 ， 再 结合 作为 非 线性 扩充 的 “内 核 技 巧 ”(kernel 
trick) ， 支 持 向 量 机 算法 就 成 了 机 器 学 习 中 的 重要 支柱 。 了 3 引 





























被 低估 的 神经 网 络 


但 是 有 一 个 限制 ， 使 得 感知 器 的 研究 存在 问题 。 上 面 的 假设 “如 果 
存在 这 样 的 权重 集合 ”提出 了 一 个 这 样 的 困惑 ， 即 什么 样 的 问题 可 能 或 
不 可 能 被 感知 器 解决 。 令 人 惩 众 的 是 ， 在 二 维 平 面 中 ， 简 单 分 布 的 点 不 
能 被 感知 器 分 开 《〈 见 图 3-5， 非 线性 ) 。 事 实证 明 ， 坦 殉 感 知 器 不 是 坦 


克 分 类 器 ， 而 是 天 气 分 类 器 。 了 4 对 图 像 中 的 坦克 进行 分 类 要 困难 得 
多 ， 而 事实 上 ， 它 不 能 用 感知 器 来 完成 。 这 也 表明 ， 即 使 感知 器 学 到 了 
一 些 东 西 ， 也 可 能 不 是 你 认为 它 应 该 学 到 的 那些 东西 。 压 倒 感知 器 的 最 
后 一 根 稳 草 是 马 文 :- 明 斯 基 和 西 摩尔 : 帕 普 特 在 1969 年 发 表 的 数学 专车 
《感知 器 》 (Perceptrons) 。 口 5 他 们 明确 的 几何 分 析 表 明 ， 感 知 器 的 
能 力 是 有 限 的 : 它们 只 能 区 分 线性 可 分 的 类 别 〈 见 图 3-5) 。 这 本 书 的 
封面 展示 了 明 斯 基 相 帕 普 特 证 明 的 感知 器 无 法 解决 的 几何 问题 ( 见 图 3- 
D 。 尽 管 在 书 的 末尾 ， 明 斯 基 和 由 普 特 考虑 了 将 单 层 感知 器 进行 泛 化 
成 为 多 层 感 知 器 的 前 景 ， 但 他 们 怀疑 可 能 没有 办 法 训练 这 些 更 强大 的 感 
知 器 。 不 六 的 是 ， 许 多 人 对 他 们 的 论断 坚信 不 疑 ， 于 是 这 个 研究 领域 渐 
渐 补 人 们 遗忘 ， 直 到 20 世 纪 80 年 代 ， 新 一 代 神 经 网 络 研究 人 员 开 始 重新 
审视 这 个 问题 。 

在 感知 器 中 ， 每 个 输入 都 独立 地 向 输出 单元 提供 证 据 。 但 是 ， 如 果 
需要 依靠 多 个 输入 的 组 合 来 做 决定 ， 那 会 怎样 呢 ?” 这 就 是 感知 器 无 法 区 
分 蝶 旋 结构 是 人 否 相连 的 原因 : 单个 像素 并 不 能 提供 它 是 在 内 部 还 是 外 部 
的 位 置信 息 。 尽 管 在 多 层 前 馈 神 经 网 络 中 ， 可 以 在 输入 和 输出 单元 之 间 
的 中 间 层 中 形成 多 个 输入 的 组 合 ， 但 是 在 20 世 纪 60 年 代 ， 还 没有 人 知道 
如 何 训练 简单 到 中 间 只 有 一 层 “ 隐 藏 单 元 ”(hiddenunits) 的 神经 网 络 。 
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图 3-7 《感知 器 》 一 书 的 增订 版 封面 。 两 个 红色 的 螺旋 结构 看 起 来 一 样 ， 但 实际 并 非 如 此 。 上 
方 的 图 案由 两 个 不 相连 的 螺旋 线 组 成 ， 下 面 的 则 是 单一 的 螺旋 线 。 你 可 以 通过 用 铅笔 跟踪 环 路 
的 内 部 路 径 来 验证 。 明 斯 基 和 和 帕 普 特 证 明了 感知 器 不 能 区 分 这 两 个 对 象 。 你 能 直接 用 肉眼 看 出 
KA? 为 什么 不 能 ? 


弗兰克 : 罗 森 布 拉 特 和 马 文 : 明 斯 基 曾 是 纽约 市 布朗 克 斯 科技 高 中 的 
同班 同学 。 他 们 在 科学 会 议 上 为 各 目 迎 异 的 人 工 智 能 研究 方法 展开 了 辩 
论 ， 而 与 会 者 更 倾向 于 明 斯 基 的 方法 。 尽 管 存在 差异 ， 但 他 们 二 人 对 我 
们 理解 感知 器 都 有 着 重要 贡献 ， 而 这 正 是 深度 学 习 的 起 点 。 

罗 森 布 拉 特 在 1971 年 死 于 一 次 驾 船 事故 ， 年 仅 43 岁 ， 当 时 正 值 人 们 
几乎 一 边 倒 地 反对 感知 器 的 时 期 。 有 传言 说 他 可 能 是 自杀 ， 但 也 可 能 只 
是 一 次 不 幸 的 出 游 。L 蚀 不 可 否认 的 是 ， 一 个 发 现 了 利用 神经 网 络 进行 
计算 的 新 方式 的 英雄 时 代 已 经 谢幕 ， 又 过 了 整整 一 代 人 的 时 间 ， 罗 和 森 布 
拉 特 开创 性 努力 的 承诺 才 得 以 实现 。 
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04 
大 脑 式 的 计算 





“如 果 我 有 大 脑 "， 这 是 1939 年 经 典 音 乐 电影 《绿野仙踪 》 (The 
Wizard of Oz) 里 稻草 人 的 唱词 。 但 稻草 人 不 知道 的 是 ， 他 早 就 已 经 有 
大 脑 了 ， 否 则 他 就 没 法 说 话 或 唱歌 。 但 真正 的 问题 是 ， 他 的 大 脑 只 诞生 
了 两 天 ， 里 面 没 有 经 验 ， 空 空 如 也 。 随 着 时 间 的 推移 ， 他 对 世界 有 了 充 
分 的 认识 ， 最 后 被 公认 为 是 奥 效 国 里 最 聪明 的 人 ， 聪 明 到 能 意识 到 自己 
的 局 限 。 而 铁皮 人 唱 的 是 , “如 果 我 能 有 心 ”。 他 和 稻草 人 为 心 和 脑 哪 个 
更 重要 而 争论 不 体 。 在 奥 效 国 中 ， 认 知 和 情感 这 两 个 大 脑 的 产物 在 精妙 
的 平衡 中 共同 协作 ， 通 过 不 断 学 习 慢 慢 创 造 出 了 类 人 的 智慧 。 这 在 真实 
世界 里 亦 是 如 此 。 这 部 音乐 剧 也 引出 了 本 章 的 主题 : 如 果 人 工 智能 拥有 
大 脑 和 心脏 。 








网 络 模型 能 够 模仿 乔 能 行为 


我 和 杰 弗 里 . 辛 顿 〈 见 图 4-1) 在 1979 年 他 组 织 的 一 次 研讨 会 上 相 
识 。 因 为 对 神经 网 络 模型 的 未 来 抱 有 相似 的 信念 ， 我 们 很 快 就 成 了 朋 
友 。 后 来 我 们 合作 研究 出 了 一 种 新 型 神经 网 络 模型 ， 叫 作 * 玻 尔 效 曼 
WL” (Boltzmann machine) 〈 将 在 第 7 章 中 进行 讨论 ) ， 并 就 此 打破 了 阻 
碍 一 代 人 研究 多 层 网 络 模型 的 僵局 。 


m 





图 4-1 (A) 童年 时 期 的 杰 弗 里 。 埃 弗 里 斯 特 。 辛 顿 (Geoffrey Everest Hinton) 。 他 的 中 间 
名 来 自 一 个 亲戚 乔治 。 埃 弗 里 斯 特 (George Everest) 。 乔 治 曾 在 印度 负责 勤 测 工作 ， 并 想 出 
了 测量 世界 上 最 高 峰 高 度 的 方法 ， 后 来 该 峰 以 他 的 名 字 被 命名 为 Everest 〈 即 珠穆朗玛 峰 ) 。 
(B) 1979 年 的 辛 顿 。 这 两 张 照片 的 拍摄 时 间 间 隔 了 15 年 。 图 片 来 源 : 杰 弗 里 。 辛 顿 。 


每 隔 儿 年 ， 我 都 会 接 到 杰 弗 里 的 一 个 电话 ， 第 一 句 都 是 “我 想 清楚 
大 脑 是 怎么 工作 的 了 ”。 每 一 次 ， 他 都 会 告诉 我 一 个 巧妙 的 改进 神经 网 
络 模型 的 新 方案 。 等 试 了 多 种 方案 并 进行 了 在 干 次 的 改进 后 ， 利 用 多 层 


神经 网 络 的 深度 学 习 才 在 手机 中 的 语音 识别 和 识别 照片 中 的 对 象 等 方面 
达到 了 与 人 类 相近 的 水 平 。 公 众 几 年 前 才 意 识 到 深度 学 习 的 这 些 能 

里 然 现在 这 些 已 经 是 众所周知 的 了 ， 但 这 一 过 程 却 花费 了 相当 长 的 时 
间 。 


杰 弗 里 在 剑桥 大 学 获得 了 心理 学 学 士 学 位 ， 并 在 爱丁堡 大 学 获得 了 
人 工 智 能 博士 学 位 。 他 的 论文 导师 是 克里斯托弗 : 明 古 特 - 希 人 金 斯 
(Christopher Longuet-Higgins) 。 希 金 斯 是 一 位 杰出 的 化 学 家 ， 他 发 明 
了 一 种 早期 的 联想 记忆 网 络 模型 。 那 时 ， 实 现 人 工 智能 的 主流 方式 是 基 
于 使 用 符号 、 逻 辑 和 规则 来 编写 智能 行为 的 程序 ， 认 知心 理学 家 已 经 采 
用 这 种 方法 来 理解 人 类 的 认 知 能 力 ， 尤 其 是 语言 。 而 那 时 的 杰 弗 里 却 在 
逆流 而 行 。 没 有 人 能 预见 到 他 有 天 一 日 会 摘 清 楚 大 脑 一 一 或 者 至 少 类 似 
大 脑 的 某 种 东西 的 工作 原理 。 他 的 讲座 非常 引人入胜 ， 他 能 够 清楚 
地 解释 抽象 的 数学 概念 ， 连 没有 太 多 数学 基础 的 人 都 能 够 理解 和 掌握 。 
他 的 机 智和 不 失 谦 进 的 幽默 感 令 人 倾倒 。 杰 弗 里 天 生 也 有 着 激进 的 一 
面 ， 特 别 是 当 涉 及 大 脑 的 话题 时 。 


我 们 第 一 次 见面 时 ， 杰 弗 里 还 是 加 州 大 学 圣迭戈 分 校 CUCSD) 的 
一 名 博士 后 研究 员 ， 在 由 大 卫 : 鲁 姆 哈 特 (David Rumelhart) 和 詹姆斯 . 
麦 元 羔 兰 (James McClelland) 领导 的 并 行 分 布 式 处 理 (Parallel 
Distributed Processing, PDP) 实验 室 工作 。 杰 弗 里 坚信 ， 将 由 简单 处 理 
单元 构成 的 网 络 、 并 行 工 作 和 从 样本 中 学 习 相 结合 ， 是 理解 认 知 的 更 好 
的 方式 。 当 时 PDP 实 验 室 正在 探索 如 何以 分 布 在 网 络 中 的 大 量 节点 活动 
的 形式 来 理解 文字 和 语言 ， 而 杰 弗 里 是 其 中 的 核心 人 物 。 


认 知 科学 中 理解 语言 的 传统 方法 是 基于 符号 表征 。 例 如 , “杯子 ”这 
个 词 是 代表 杯子 概念 的 符号 ， 不 是 特 指 茶 个 杯子 ， 而 古 指 所 有 杯子 。 符 
号 的 美妙 之 处 在 于 ， 邱 们 让 我 们 能 够 对 复 洒 的 概念 进行 压缩 ， 并 运用 它 
们 ; 而 符号 的 问题 在 于 ， 这 种 过 分 概括 的 表达 形式 使 其 很 难 在 现实 世界 
中 被 精确 地 搬 述 出 来 一 一 在 现实 世界 中 ， 杯 子 的 样式 、 形 状 和 尺寸 有 奢 
无 数 种 可 能 。 虽 然 我 们 大 多 数 人 在 看 到 杯子 的 时 候 都 能 很 快 认 出 它 是 什 






































么 ， 但 没有 一 个 逻辑 程序 能 够 清楚 地 指认 哪个 东西 是 杯子 ， 哪 个 不 是 ， 
也 无 法 识别 出 图 片 中 的 杯子 。 正 义 、 和 平 之 类 的 抽象 概念 更 会 让 一 个 计 
算 机 程序 产生 困惑 。 另 一 种 方法 是 ， 通 过 大 量 神经 元 上 的 活动 模式 来 表 
示 杯 子 ， 如 此 一 来 驶 可 以 捕捉 概念 之 间 的 相似 和 差异 点 。 这 赋予 了 符号 
可 以 有 反映 其 含义 的 丰富 的 内 部 结构 。 问 题 在 于 ， 在 1980 年 ， 还 没有 人 知 
道 如 何 创建 这 些 内 部 表征 。 


在 20 世 纪 80 年 代 ， 相 信和 网 络 模型 能 够 模仿 智能 行为 的 人 并 不 只 有 我 
和 杰 弗 里 。 全 世界 有 一 些 研究 人 员 ， 虽 然 大 多 都 在 独自 耕耘 ， 但 与 我 们 
有 着 共同 的 信念 ， 坚 持 不 懈 地 开 友 着 专门 的 网 络 模型 。 他 们 当中 的 一 
位 ， 克 里 斯 托 弗 : 冯 : 德 :马尔 斯 伯 格 (Christoph von der Malsburg) ， 开 
发 了 一 种 模式 识别 模型 ， 将 发 射 脉冲 的 人 造 神经 元 连接 在 一 起 ， 山 并 
证 明了 这 种 方法 可 以 识别 图 像 中 的 人 脸 。 葬 另外 ， 大 阪 大 学 的 福 岛 邦 
E (Kunihiko Fukushima) 发 明了 神经 认 知 机 (Neocognitron) , 13!— 
个 基于 视觉 系统 架构 的 多 层 网 络 模型 ， 它 使 用 了 卷 积 滤波 器 和 简单 形式 
的 赫 布 可 塑性 (Hebbian plasticity) ， 这 也 是 深度 学 习 网 络 的 一 个 直接 
的 前 里 。 第 三 个 例子 是 赫尔辛基 大 学 的 电气 工程 师 戴 沃 .- 科 和 霍 守 (Teuvo 
Kohonen) ， 他 开发 了 一 个 自 组 织 网 络 ， 可 以 学 习 将 相似 的 输入 通过 不 
同 的 处 理 单元 聚 类 到 二 维 映射 中 《例如 可 以 用 来 代表 不 同 的 语音 ) ， 相 
似 的 输入 能 够 激活 输出 空间 的 相 邻 区 域 。 欧 科 霍 宁 网 络 模型 的 一 个 主 
要 优点 是 ， 它 不 需要 对 每 个 输入 的 类 别 进行 标记 《〈 通 过 生成 标记 来 训练 
监督 网 络 的 花费 十 分 高 是 ) o BET HATE AA scar, (AAI BT A 
得 非常 精 民 。 

在 加 州 大 学 洛杉矶 分 校 的 朱 迪 亚 : 珀 尔 (Judea Pearl) 引入 了 将 网 络 
中 的 结 点 用 概率 联系 起 来 的 信念 网 络 ， 比 如 草地 变 湿 ， 是 因为 喷 水 器 打 
开 了 的 概率 ， 或 者 因为 下 雨 了 的 概率 。[ 站 这 是 一 个 很 有 前 景 的 将 概率 
网 络 系统 化 的 早期 尝试 。 虽 然 珀 尔 的 网 络 模 型 是 一 个 可 以 用 于 退 踊 世间 
因果 关系 的 强大 框架 ， 但 手动 分 配 所 有 所 需 概 紊 已 经 被 证 明 是 不 切实 际 
的 。 能 够 自动 找到 概率 的 学 习 算 法 依然 有 待 突破 〈 会 在 本 书 第 二 部 分 讨 























上 述 几 个 例子 和 其 他 基于 网 络 的 模型 都 有 一 个 共同 的 致命 缺陷 : E 
们 都 不 足以 解决 现实 世界 中 的 问题 。 而 且 ， 开 发 它们 的 先驱 者 很 少 与 他 
人 合作 ， 要 取得 进展 就 更 加 举步维艰 。 如 此 一 来 ， 麻 省 理工 学 院 、 斯 坦 
福 大 学 和 卡 内 基 - 梅 隆 大 学 的 一 流 人 工 智 能 研究 中 心里 ， 就 没有 多 少 人 
看 好 神经 网 络 了 。 基 于 规则 的 符号 处 理 获 得 了 大 部 分 资金 支持 ， 并 完成 
了 大 部 分 的 相关 研究 工作 。 








神经 网 络 先驱 者 


1979 年 ， 杰 弗 里 :. 辛 顿 和 布朗 大 学 心理 学 家 詹姆斯 安德森 在 加 利 福 
尼 亚 的 拉 荷 亚 市 组 织 了 联想 记忆 的 并 行 模型 研讨 会 。[ 印 大 多 数 参 与 者 
互相 之 间 都 是 第 一 次 见面 。 我 很 惊讶 自己 能 够 受 邀 参加 研讨 会 ， 我 那 会 
儿 只 是 哈佛 大 学 医学 院 神经 生物 学 的 博士 后 研究 员 ， 而 且 只 在 一 些 不 太 
知名 的 期 刊 上 发 表 了 一 些 关 于 神经 网 络 的 技术 论文 。 杰 弗 里 后 来 告诉 
我 ， 他 曾经 与 大 卫 : 马 尔 (David Marr) 〈 见 图 4-2， 中 间 ) 审核 过 我 的 
背景 。 马 尔 是 神经 网 络 建 模 中 的 一 位 顶尖 人 物 ， 也 是 MIT AI Lab 的 一 名 
有 远见 的 领导 者 。1976 年 ， 我 在 怀俄明 州 杰 克 逊 霍 尔 市 (Jackson 
Hole) 的 一 个 小 型 研讨 会 上 第 一 次 遇 到 了 马尔 。 我 们 有 相似 的 兴趣 ， 他 
还 曾 邀 请 我 去 MIT 参 观 ， 并 在 那里 做 一 次 演讲 。 














图 4-2 (Adz) 托 马 索 。 波 吉 奥 (Tomaso Poggio) 、 大 卫 。 马 尔 和 弗朗西斯 。 克 里 克 
(Francis Crick) 在 加 利 福 尼 亚 远足 的 途中 〈 照 片 拍摄 于 1974 年 ) 。 弗 朗 西 斯 很 享受 与 来 访 者 
在 各 种 科学 问题 上 进行 长 时 间 的 讨论 。 图 片 来 源 : 索 尔 克 生 物 研 究 所 。 


马尔 从 剑桥 大 学 获得 了 数学 学 士 学 位 和 生理 学 博士 学 位 。 他 的 博士 
生 导 师 是 生理 学 家 吉尔 斯 : 布 林 德 利 〈Giles Brindley) ， 专 门 研究 视网膜 
和 色觉， 但 在 音乐 理论 和 过 起 功能 障碍 治疗 领域 也 有 较 高 的 知名 度 。 二 
尔 斯 有 一 件 很 出 名 的 逸事 一 一 在 内 华 达 州 拉 斯 维 加 斯 举行 的 美国 泌尿 外 
科学 会 (The American Urological Association) 会 议 上 发 表演 讲 时 ， 他 
脱 掉 了 裤子 ， 亲 上 自 证 明了 化 学 诱导 动 起 的 有 效 性 。 马 尔 的 博士 论文 插 述 
了 一 个 小 脑 神经 网 络 学 习 模型 ， 这 块 区 域 与 快速 运动 控制 有 关 。 他 还 开 
发 了 海马 体 和 大 脑 皮 层 的 神经 网 络 模型 ， 撰 写 的 大 量 相 关 文 章 也 都 被 证 
明 十 分 有 预见 性 。 了 


当 我 第 一 次 在 杰 元 进 霍 尔 遇 到 马尔 时 ， 他 已 经 到 了 麻 省 理工 学 院 ， 
当时 正在 从 事 视 觉 研究 工作 ， 并 和 凭借 他 的 个 人 魅力 吸引 到 了 一 批 有 才华 
的 学 生 跟 他 一 起 工作 。 他 退 求 一 种 目下 而 上 的 策略 ， 从 视网膜 开始 入 手 

《在 那里 光 被 转换 成 电信 号) ， 并 探求 视网膜 中 的 信号 如 何 编码 对 象 的 
ARIE, DA Se AM bit BS Fes WIRY RRS ART ZO TE I Fo AIC R T R 






































为 立体 视觉 开发 了 一 种 带 有 反馈 连接 的 递归 神经 网 络 模型 ， 通 过 检测 双 
眼看 到 的 随机 点 立体 图 中 点 的 图 像 的 轻微 横向 位 移 ， 来 测量 对 象 的 深 
度 。 地 双眼 深度 感知 是 三 维 立 体 图 产生 效果 的 基础 。 昌 | 马尔 于 1980 年 
因 和 白血病 去 世 ， 年 仅 35 岁 。 两 年 之 后 ， 他 的 遗 作 《视觉 》 (Vision) 得 
以 发 表 。 了 0 具有 讽刺 意味 的 是 ， 尽 管 马尔 在 他 的 视觉 研究 中 采取 了 自 
下 而 上 的 策略 ， 即 从 视网膜 开始 并 对 视觉 处 理 的 每 个 后 续 阶段 进行 建 
模 ， 他 的 著作 却 以 倡导 自 上 而 下 的 策略 而 闻名 一 一 首先 对 要 解决 的 问题 
进行 计算 分 析 ， 然 后 构建 算法 来 解决 问题 ， 最 后 通过 硬件 来 实现 算法 。 
然而 ， 尽 管 这 可 能 是 在 解决 问题 后 对 问题 进行 解释 的 一 种 有 效 途 径 ， 但 
对 于 揭 开 大 脑 秘密 却 算 不 上 是 个 好 方法 。 难 点 就 在 第 一 步 一 “要 判断 大 
脑 正在 解决 什么 问题 。 我 们 的 直觉 往往 具有 误导 性 ， 特 别 是 在 视觉 方 
面 ， 我 们 擅长 观察 ， 但 大 脑 对 我 们 隐藏 了 所 有 的 细节 。 因 此 ， 纯 粹 的 自 
上 而 下 策略 问题 重重 ， 但 纯粹 自 下 而 上 的 策略 也 同样 如 此 (后 面 的 音节 
将 探讨 通过 学 习 算 法 ， 由 内 而 外 理解 视觉 工作 原理 的 进展 ) 。 


弗朗西斯 : 克 里 克也 参加 了 辛 顿 和 安德森 在 拉 蓓 亚 的 研讨 会 ， 他 曾 

在 1953 年 与 同 在 剑桥 大 学 的 詹姆斯 : 沃 森 James Watson) 共同 发 现 了 
DNA 的 双 螺 旋 结 构 。 在 20 多 年 后 的 1977 年 ， 克 里 克 加 入 了 位 于 拉 蓓 亚 的 
索 尔 克 生 物 研 究 所 ， 并 将 研究 重心 转移 到 神经 科学 领域 。 他 会 邀请 研究 
人 员 来 访 ， 并 天 神经 科学 的 许多 课题 ， 特 别 是 视觉 方向 ， 进 行 长 时 间 的 
讨论 ， 马 尔 就 是 其 中 一 位 访问 者 。 在 马尔 著作 的 末尾 ， 有 一 段 共 格拉 底 
WSR A eC, SURREAL, RET SK Sot Boe 
ib. 19894F RIA ZR AR SAA, IP oe RS và E nos EIN Be E 
价值 。 
































IMB ADR SD Lae E 


1854 年 ， 一 位 自学 成 才 、 有 5 个 女儿 (有 几 个 很 有 数学 天 分 ) 的 英 
国教 师 ， 写 了 一 本 名 为 《思维 规律 的 研究 》 (An Investigation of the 


Laws of Thought) IN, Cæ fK E, WAE TMA TR T AU 
WERE TAS ARE SRK, the 20 2050 5E LA TL 
HEB FHM RZ. A EMEA TRIN AD, (RE REMA 
文 布尔 曾经 使 用 过 并 在 家 族 中 代 代 相传 的 笔 。 

在 准备 一 次 演讲 时 ， 我 发 现 布 尔 这 本 著作 的 全 称 是 《思维 规律 的 研 
究 一 一 逻辑 与 概率 的 数学 理论 基础 》。 虽 然 其 中 让 人 印象 最 深刻 的 是 对 
逻辑 的 洞察 ， 但 这 本 书 对 于 概率 论 也 有 很 多 讨论 。 概 率 论 是 现代 机 器 学 
习 的 核心 ， 在 描述 现实 世界 中 的 不 确定 性 方面 比 逻辑 方法 要 好 用 得 多 。 
所 以 布尔 也 是 机 器 学 习 的 先驱 之 一 。 有 些 讽刺 的 是 ， 他 思想 中 被 遗忘 的 
一 面 ， 在 250 年 后 因为 他 的 玄孙 才 开 始 绽放 。 布 尔 一 定 会 为 杰 弗 里 感到 
骄傲 的 。 
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图 4-3 尽管 乔治 。 布 尔 的 《思维 规律 的 研究 》 以 研究 思维 的 基础 Vet MSZ, BR LÉ, 
它 也 探讨 了 概率 的 问题 。 这 两 个 数学 领域 分 别 启 发 了 在 符号 处 理 和 机 器 学 习 方 面 的 人 工 智 能 研 





利用 神经 科学 理解 大 脑 


在 普林斯顿 大 学 物理 系 攻读 研究 生 时 ， 我 曾 通 过 写 下 非 线 性 神经 元 
交互 网 络 的 方程 式 并 分 析 它 们 来 解决 如 何 理解 大 脑 的 问题 ， 员 就 像 物 
理学 家 几 个 世纪 以 来 使 用 数学 来 理解 重力 、 光 、 电 、 磁 和 核能 的 本 质 一 
样 。 每 天 晚上 睡 前 ， 我 都 会 禄 裤 :“ 杀 爱 的 主 ， 让 方程 式 是 线性 的 ， 品 
声 呈 局 其 分布， 变量 是 可 分 的 吧 。” 这 些 是 能 产生 分 析 解 法 的 条 件 ， 但 
征 因为 神经 网 络 方程 式 是 非 线性 的 ， 与 之 相关 的 噪声 是 非 高 斯 分 布 的 ， 
而 且 变 量 是 不 可 分 的 ， 所 以 它们 并 没有 明确 的 解 。 除 此 之 外 ， 当 时 想 要 
在 计算 机 上 模拟 大 型 网 络 的 方程 是 不 可 能 的 。 更 令 人 泪 形 的 是 ， 我 甚至 
不 确定 我 的 方程 式 到 底 对 不 对 。 


在 普林斯顿 上 课时 ， 我 发 现 神经 科学 家 们 正在 取得 令 人 振奋 的 进 
展 ， 这 个 年 轻 的 学 科 领 域 45 年 前 才 初 露 端倪 。 在 此 之 前 ， 生 物 学 、 心 理 
学 、 解 剖 学 、 生 理学 、 药 理学 、 神 经 学 、 精 神 病 学 、 生 物 工程 学 等 许多 
学 科 都 对 大 脑 进 行 了 研究 。 在 1971 年 神经 科学 学 会 (The Society for 
Neuroscience) 的 第 一 次 会 议 上 ， 弗 农 : 蒙 特 卡 和 (Vernon Mountcastle) 
亲自 在 门口 迎接 了 每 一 位 与 会 者 。 呈 今天， 这 个 学 会 有 4 万 多 名 成 
员 ， 大 约 3 万 人 通常 会 出 席 年 会 。 我 于 1982 年 在 约翰 : 霍 普 金 斯 大 学 的 生 
物 物 理 系 开 始 我 的 第 一 份 工 作 时 ， 遇 到 了 这 位 传奇 的 神经 生理 学 家 ， 他 
发 现 了 皮层 柱 ， 而 且 有 着 强大 的 人 格 魅 力 。[3 引 我 随后 与 蒙特 卡 索 密 切 
合作 ， 计 划 建 立 约 鞭 :上 霍 普 金 斯 大 学 的 脑 研究 所 。 这 是 世界 上 该 领域 第 
一 个 研究 机 构 ， 成 立 于 1994 年 。 


对 于 大 脑 的 研究 存在 着 许多 不 同 的 层级 〈 见 图 4-4) ， 每 个 层级 都 
有 着 重要 的 发 现 ， 而 要 整合 所 有 这 些 知识 是 一 个 环 手 的 问题 。 这 让 人 想 














起 了 关于 矮 胖 子 的 童谣 : 


AERE, BBR, 
ATAK. 
E f, FRE, 
破 镜 难 圆 没 办 法 。 


1m 


10 cm 


1cm 


1mm 


100 um 


1 um 





图 4-4 大 脑 研究 中 的 层级 。 (CA) 空间 尺度 范围 从 底部 的 分 子 水 平 到 顶部 的 整个 中 枢 神 经 系统 
(centralnervous systems，CNS) 。 我 们 已 经 对 每 一 个 层级 都 有 了 深入 的 了 解 ， 但 对 具有 少量 
彼此 高 度 相 关 的 神经 元 的 网 络 层 级 ， 即 由 人 工 神 经 网 络 进行 模拟 的 层级 ， 却 知之 黄 少 。 (A) 

突 触 〈 图 片 下 方 ) 的 示意 图 ， 视 觉 皮 层 中 的 简单 细胞 结构 〈 图 片 中 间 ) 以 及 视觉 皮层 中 皮层 区 
域 的 层次 结构 〈 图 片上 方 ) 。 图 片 改编 自 : P. S. Churchland, T. J. 

Sejnowski, “Perspectives on Cognitive Neuroscience" , Science, 242(1988) : 741-745, 
Figure 1. 


尽管 神经 科学 家 非常 善于 解 训 大脑 ， 但 再 把 这 些 部 分 拼 回去 就 没 那 
么 容易 了 。 这 一 过 程 需要 做 加 法 而 不 是 减法 ， 而 这 正 是 我 想 要 实现 的 。 
但 首先 我 必须 知道 各 个 部 分 都 是 什么 ， 毕 竟 大 脑 的 构成 太 复杂 了 。 

查尔斯 - 格 罗 斯 (Charles Gross) 教授 是 在 普林斯顿 研究 猴子 视觉 系 
统 的 心理 学 家 。 在 他 的 一 个 研究 生 讲座 上 ， 我 对 哈佛 大 学 医学 院 的 大 卫 
休 伯 尔 和 托 斯 坦 : 威 泽 尔 在 记录 视觉 皮层 里 单个 神经 元 方面 所 取得 的 进 
展 印象 深刻 。 如 果 物 理学 不 是 理解 大 脑 工 作 原 理 的 捷径 ， 那 么 有 可 能 是 
神经 科学 。 由 于 他 们 在 初级 视觉 皮层 中 的 开创 性 工作 ， 休 伯 尔 和 威 泽 尔 
共同 获得 了 1981 年 的 话 贝 尔 生 理学 或 医学 奖 。 《他 们 的 发 现 是 深度 学 习 
的 基础 ， 接 下 来 会 在 第 5 章 中 讨论 ， 也 是 第 9 章 的 主题 。 ) 

















大 脑 如 何 处 理 问题 





1978 年 在 普林斯顿 获得 物理 学 博士 学 位 后 ， 我 参加 了 位 于 伍兹 霍 尔 
市 的 海洋 生物 学 实验 室 举办 的 为 期 10 周 的 深度 实验 神经 生物 学 夏季 课 
Keo LURK, RTE EN SDE RST oo OP EB 
CET. ARE DET — EH (Story Landis) 市 到 一 
XJ, WERKT RAEI ARE EE FEE SI els AK AS 
生物 学 系 的 教员 ， 后 来 在 美国 国立 卫生 研究 院 〈 以 下 简称 NIH) 担任 国 
家 神经 疾病 和 中 风 研 究 所 主任 。 一 想起 她 ， 我 就 会 想到 这 件 事 。 

嗜 期 课程 结束 后 ， 我 在 9 月 份 又 待 了 几 个 星期 ， 想 要 完成 我 之 前 开 
JAS. Ja AT A AREER 能 够 感知 非常 微弱 的 电场 ; 
事实 上 ， 它 们 甚至 可 以 感受 到 横 罕 大 西洋 的 1.5 伏 电池 的 信号 。 和 凭借 这 
种 第 六 感 ， 鳃 鱼 可 以 通过 它们 在 地 球 磁场 中 运动 产生 的 微弱 电信 号 来 识 
别 方向 ， 而 这 一 过 程 产生 的 曼 伏 级 的 信号 可 以 被 它们 的 电 接 收 颖 感知 。 
我 在 项 目 中 获得 了 鱼 鱼 电感 受 器 令 人 叹为观止 的 电子 显微镜 图 像 。 吕 和 

我 正在 伍兹 霍 尔 Loeb Hall 大 楼 的 地 下 室 拍照 的 时 候 ， 意 外 地 接 到 了 














哈佛 医学 院 神 经 生物 学 系 创始 人 斯 带 芬 - 库 夫 勒 (Stephen Kuffler) 的 一 
个 电话 。 库 夫 勒 是 神经 科学 领域 的 传奇 人 物 ， 成 为 他 实验 室 里 的 一 名 博 
士 后 研究 员 ， 是 我 人 生 的 一 个 转折 点 。 在 搬 去 波士顿 之 前 ， 我 完成 了 与 
导师 艾 伦 . 盖 尔 普 林 (Alan Gelperin) 共同 进行 的 一 个 绘制 大 星 蛤 的 足 神 
经 节 代谢 活动 的 短期 博士 后 项 目 。 呈 站 从 那 以 后 ， 我 每 次 吃 蜗 牛 都 会 不 
由 自主 地 想到 它 的 大 脑 。 艾 伦 师承 自 一 系列 研究 动物 行为 神经 基础 的 神 
经 科学 家 。 我 所 学 到 的 是 ， 无 疹 椎 动物 中 所 谓 的 简单 神经 系统 ， 实 际 上 
比 进化 阶梯 上 那些 更 高 级 动物 器 官 里 的 更 复杂 ， 因 为 无 硝 椎 动物 必须 依 
赖 更 少 的 神经 元 存活 ， 每 个 神经 元 都 是 高 度 特异 化 的 。 我 也 开始 明白 ， 
没有 行为 支持 ， 神 经 科学 的 任何 东西 都 讲 不 通 。 了 6] 

在 库 夫 勒 的 实验 室 里 ， 我 研究 了 牛蛙 交感 神经 节 一 个 突 触 的 迟 慢 兴 
奋 性 反应 〈 见 图 4-5) ， 它 的 反应 速度 是 位 于 同一 神经 元 的 另 一 个 突 触 
上 的 快速 的 毫秒 级 兴奋 性 反应 的 /60000。 刁 这些 神 经 节 含 有 形成 牛蛙 
自主 神经 系统 输出 的 神经 元 ， 可 以 对 腺 体 和 内 部 器 官 进行 调节 。 在 刺激 
到 突 触 的 那个 神经 后 ， 我 有 充分 的 时 间 去 倒 杯 咖啡 再 返回 座位 一 一 从 突 
触 输 入 到 神经 元 达到 峰值 会 花 上 1 分 钟 左 右 ， 然 后 神经 元 会 再 用 10 分 钟 
恢复 到 初 态 。 突 触 是 大 脑 中 基本 的 计算 单元 ， 而 突 触 类 型 的 多 样 性 不 可 
小 凯 。 这 次 经 历 告 诉 我 ， 复 杂 性 可 能 不 是 通 向 理解 大 脑 功能 的 坦途 。 为 
了 理解 大 脑 ， 我 必须 了 解 ， 大 自然 如 何 通过 进化 早早 就 解决 了 大 量 的 问 
题 ， 并 将 这 些 解决 方案 自 下 而 上 地 传递 给 进化 链 上 的 物种 。 我 们 大 脑 中 
的 离子 通道 在 几 十 亿 年 前 的 细菌 体内 就 存在 了 。 























图 4-5 牛蛙 交感 神经 节 细 胞 。 作 为 神经 元 ， 这 些 细胞 会 接受 来 自 养 网 的 输入 并 激活 牛蛙 皮肤 中 
的 腺 体 。 它 们 体积 很 大 ， 产 生 的 电信 号 很 容易 就 能 被 微 电 极 记录 下 来 《图 片 底部 ) 。 它 们 没有 
树 突 ， 可 以 通过 神经 《图 片 顶部 的 背景 ) 或 化 学 物质 (图 片 顶 部 ， 一 对 微量 移 液 器 ) 进行 电 刺 
激 。 刺 激 神经 会 引发 三 种 不 同 的 突 触 信号 : 一 种 是 快速 的 毫秒 级 兴奋 性 反应 ， 类 似 于 神经 肌肉 
连接 处 的 兴奋 有 反应; 一 种 是 较 慢 的 兴奋 性 反应 ， 在 10 秒 后 达到 峰值 ， 持 续 1 分 钟 ; 还 有 一 种 是 迟 
慢 兴 奋 性 反应 ， 在 1 分 钟 后 达到 峰值 ， 持 续 10 分 钟 。 这 说 明 即 使 是 最 简单 的 神经 元 也 存在 较 宽 的 
反应 时 间 跨 度 。 图 片 来 源 : S. W. Kuffler, T. J. Sejnowski, “Peptidergic and 
Muscarinic Excitation at Amphibian Sympathetic Synapses”Journal of 

Physiology341 (1983) : 257-278, plate |. 


计算 机 科学 的 兴起 


但 是 如 果 物 理学 太 简单 ， 生 物 学 又 过 于 复杂 ， 我 应 该 在 哪里 寻求 指 
导 呢 ?与 物理 学 中 的 力 不 同 ， 大 脑 回路 有 一 个 目的 ， 就 是 解决 计算 问 
题 ， 比 如 看 见 和 移动 ， 以 便 在 世界 上 生存 。 即 使 是 一 个 关于 神经 元 如 何 
工作 的 完美 的 物理 模型 ， 也 不 会 告诉 我 们 它 的 目的 是 什么 。 神 经 元 负责 
处 理 携带 信息 的 信号 ， 而 计算 则 是 试图 理解 大 自然 这 一 过 程 中 缺失 的 环 
节 。 我 在 过 去 的 40 年 中 一 直 在 追求 这 一 目标 ， 并 开创 了 一 个 新 的 领域 ， 
叫 作 “计算 神经 科学 ”。 

在 加 州 大 学 圣迭戈 分 校 结束 博士 后 研究 员工 作 之 后 ， 杰 弗 里 . 辛 顿 
返回 了 英格兰 ， 在 剑桥 医学 研究 理事 会 (MRC) 的 应 用 心理 学 部 门 找 
到 了 一 个 研究 职位 。1981 年 的 一 天 ， 他 在 凌晨 两 点 接 到 一 个 电话 ， 对 方 
自称 是 加 利 福 尼 亚 州 帕 洛 阿尔 托 市 (Palo Alto) 系统 开发 基金 会 总 裁 查 
尔 斯 :史密斯 (Charles Smith) 。 卫 8 史密斯 表示 ， 他 的 基金 会 希望 为 潜 
ZEN. ARR, BARRE, ROWENTA, MAEA 
强烈 推荐 了 杰 弗 里 。 杰 弗 里 不 确定 这 件 事 可 不 可 靠 。 作 为 我 的 一 个 好 朋 
友 ， 杰 弗 里 向 史密斯 提 到 了 我 的 研究 ， 告 诉 他 我 的 研究 成 功 的 概率 比 他 
的 还 要 小 。 

基金 会 是 货真价实 的 ， 还 为 我 们 提供 了 第 一 笔 款项 ， 这 大 大 加 快 了 
我 们 的 研究 进度 。 我 们 可 以 买 得 起 运算 能 力 更 强大 的 电脑 ， 并 吸引 更 多 
的 学 生 加 入 。 在 杰 弗 里 加 入 位 于 匹兹堡 的 卡 内 基 - 梅 隆 大 学 时 ， 他 用 一 






































台 炫 酷 的 Lisp 机 芭 3 取代 了 他 的 二 代 苹 果 电 脑 ， 而 在 我 搬 到 巴尔 的 摩 的 
约翰 . 霍 普 金 斯 大 学 时 ， 我 短暂 地 拥有 过 比 整 个 计算 机 科学 系 还 要 多 的 
计算 能 力 。 世 9] 我 还 购买 了 第 一 个 将 霍 普 金 斯 与 阿 帕 网 CARPANET, 

互联 网 的 前 身 ) 连接 起 来 的 调制 解 调 器 ， 这 样 杰 弗 里 和 我 就 可 以 互相 发 
送 电子 邮件 了 。 能 够 在 新 的 起 点 有 个 好 的 开端 ， 我 们 都 感到 很 满意 〈 图 
4-6) 。 





q— --— 





图 4-6 我 和 杰 弗 里 。 辛 顿 在 波士顿 讨论 视觉 网 络 模型 (照片 拍摄 于 1980 年 ) 。 这 是 杰 弗 里 和 我 
在 拉 荷 亚 的 并 行 模型 研讨 会 上 见面 的 一 年 之 后 。 又 过 了 一 年 ， 我 在 位 于 巴尔 的 摩 的 约翰 。 霍 普 
金 斯 大 学 成 立 了 自己 的 实验 室 ， 而 杰 弗 里 在 匹 效 堡 的 卡 内 基 - 梅 隆 大 学 也 创立 了 他 的 研究 小 组 。 
图 片 来 源 : ARE. FM 
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年 到 1988 年 间 的 赠 球 计 划 ， 来 分 配 从 建筑 物 销售 中 获得 的 收益 。 

[19] 由 Symbolis 公 司 制造 的 Lisp 机 ， 是 为 能 够 编写 符号 处 理 的 AI 程 序 而 设计 的 ， 但 它们 并 不 
擅长 进行 大 规模 数字 运算 ， 而 后 者 正 是 模拟 神经 网 络 所 需要 的 。 

[20] ”1984 年 ， 作 为 美国 国家 科学 基金 会 (NSF) 总 统 青 年 研究 员 奖 (Presidential Young 
Investigator Award) 的 获得 者 ， 我 得 到 了 新 成 立 的 计算 机 公司 Ridge 提 供 的 巨大 购买 折扣 ， 我 买 
的 这 台 计 算 机 拥有 匹敌 VAX 780 的 计算 能 力 ， 后 者 是 当时 学 术 计 算 领域 的 骨干 机 型 。 
































































































































05 
洞察 视觉 系统 


在 我 上 幼儿 园 之 前 ， 最 早期 的 记忆 中 有 这 么 一 个 场景 一 一 我 盯 着 一 
堆 拼 图 ， 以 形状 、 颜 色 和 图 案 为 线索 来 匹配 它们 。 我 的 父母 会 在 聚会 上 
夺 炊 他 们 还 在 踏 吕 学 步 的 儿子 能 够 快速 熟练 地 完成 拼图 ， 而 那些 朋友 党 
常 对 此 表现 得 很 惊讶 。 我 那 时 还 没有 意识 到 ， 我 的 大 脑 正在 完成 它 最 擅 
长 的 工作 一 一 通过 模式 识别 来 解决 问题 。 科 学 充满 了 各 种 各 样 的 问题 ， 
就 像 拼图 中 缺失 的 部 分 和 对 拼合 后 画面 的 模糊 提示 。 大 脑 如 何 解 决 问 


A, Aiea. 


QUE 22 (ERE (The Helmholtz Club) 是 南 加 州 视觉 科学 家 们 组 
成 的 一 个 小 团体 。 这 些 科 学 家 来 自 加 州 大 学 圣迭戈 、 洛 杉 矶 和 尔 湾 三 个 
分 校 ， 以 及 加 州 理工 学 院 和 南 加 州 大 学 ， 他 们 每 个 月 都 会 找 一 个 下 午 在 
加 州 大 学 尔 湾 分 校 会 面 。 山 赫 尔 曼 . 汉 . 亥 姆 霍 效 (Hermann Von 
Helmholtz) 是 19 世 纪 的 一 位 物理 学 家 和 医生 ， 他 发 明了 一 套 关 于 视觉 
的 数学 理论 和 实验 方法 ， 构 成 了 我 们 当今 理解 视觉 感知 的 基础 。 作 为 俱 
乐 部 的 秘书 ， 我 要 负责 从 组 织 外 部 邀请 一 位 嘉宾 ， 为 这 15~20 名 成 员 以 
及 他 们 的 客人 进行 演讲 ， 然 后 由 俱乐部 成 员 做 第 二 个 演讲 。 演 讲 是 互动 
性 质 的 ， 大 家 有 充足 的 时 间 进 行 深 入 讨论 。 有 一 次 ， 一 位 外 部 演讲 人 对 
那些 提出 问题 的 人 表现 出 了 惊讶 : “他 们 还 真是 喜欢 刨 根 问 底 。” 这 些 每 
月 的 例会 让 参与 者 收获 了 顶尖 思维 ， 几 乎 就 是 一 堂堂 视觉 领域 的 大 师 
up, BI 
































古 我 们 最 敏锐 ， 也 是 被 研 完 得 最 多 的 一 种 感官 。 前 额 下 方 的 眼 
我 们 精准 敏锐 的 双眼 深度 知觉 ， 而 我 们 的 大 脑 皮 层 中 一 半 的 部 
责 视觉 的 。“ 眼 见 为 实 ” 这 人 句 成 语 就 充分 体现 了 视觉 的 特殊 地 








位 。 然 而 ， 也 正 是 这 种 良好 的 视觉 ， 导 致 我 们 完全 忽视 了 视觉 系统 背后 
巨大 的 计算 复杂 性 ， 大 上 自然 经 过 数 亿 年 的 进化 才 解 决 了 这 个 问题 “如 第 
2 章 中 所 述 ) 。 视 觉 皮 层 的 组 织 结构 为 最 成 功 的 深度 学 习 网 络 提供 了 有 灵 
感 。 


在 1/10 秒 内 ， 我 们 视觉 皮层 中 的 100 亿 个 神经 元 并 行 工作 ， 能 够 在 
杂乱 的 场景 中 识别 一 个 杯子 ， 即 便 我 们 以 前 可 能 从 未 见 过 那个 杯子 ， 也 
不 论 它 在 什么 位 置 ， 多 大 矿 寸 ， 以 什么 角度 面 对 我 们 。 在 普林斯顿 大 学 
读 研 究 生 时 期 ， 我 对 视觉 研究 十 分 着 迷 ， 并 且 在 但 尔 斯. 格 罗斯 的 实验 
室 工 作 了 一 个 夏天 。 他 研究 过 猴子 的 下 普 叶 皮层 〈( 见 图 5-1)〉 ， 并 在 那 
里 发 现 了 对 复杂 对 象 ， 如 脸 部 ， 以 及 著名 的 马桶 刷 ， 产 生 反 应 的 神经 
Jas 


在 哈佛 医学 院 神经 生物 学 系 的 时 候 ， 我 兽 与 斯 带 芬 . 库 夫 勒 一 起 工 
作 ， 他 之 前 发 现 了 视网膜 中 的 神经 节 细 胞 编码 视觉 场 景 的 方式 。 如 果 不 
是 在 1980 年 过 世 ， 他 可 能 会 与 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 一 起 分 享 
1981 年 的 诺 贝 尔 生 理学 或 医学 奖 。 在 1989 年 转 到 索 尔 克 研 究 所 后 ， 我 开 
始 与 弗朗西斯 : 克 里 克 合作 。 他 于 1977 年 将 研究 重点 从 分 子 遗 传 学 转向 
神经 科学 ， 并 专注 于 寻找 视觉 意识 的 神经 关联 。 能 够 和 当时 最 伟大 的 视 
觉 科 学 家 之 一 共事 ， 我 感到 万 分 荣幸 。 






















功能 类 别 判断 ， 


做 出 决定 简单 的 视觉 形式 、 


边缘、 角落 





图 5-1 猕猴 视觉 系统 的 信息 流动 示意 图 。 箭 头 表 示 视 觉 区 域 的 投影 信息 从 视网膜 开始 ， 到 达 视 
觉 处 理 的 每 个 阶段 都 有 若干 毫秒 的 延迟 。 猕 猴 的 视觉 MP aUe 我 们 也 有 相同 的 
视觉 处 理 阶 段 。LGN Clateralgeniculate nucleus) : 外 侧 膝 状 体 ; V1: 初级 视觉 皮层 ; V2: 
次 级 视觉 皮层 ; VA: 视觉 区 4; AIT 和 PIT: S. a PFC: 前 额 叶 皮层 ; 
PMC: 前 运动 皮层 ; MC: 运动 上 皮层。 图片 来 源 : S. J.Thorpe and M. Fabre-Thorpe, “Seeking 
Categories in the Brain,” Science291, no. 5502 (2001): 261. 


人 有 眼 是 如 何 看 到 东西 的 


如 果 我 们 跟随 图 像 生成 的 信号 进入 大 脑 ， 就 可 以 看 到 信号 是 如 何在 
两 个 连续 的 处 理 阶段 之 间 被 不 断 转 换 的 A s 视觉 始 于 视 网 
膜 ， 在 那里 ， 光 感受 器 将 光 转 换 为 电信 和 号。 视网膜 内 有 两 层 神经 元 ， 它 
们 在 空间 和 时 间 维 度 中 处 理 视 觉 信号 ， 最 后 通过 神经 节 细 胞 投射 到 视 神 


经 。 








e t 
VAR 
[5-2 (从 左 到 右 ) 斯 蒂 芬 。 库 夫 勒 、 托 斯 坦 ，。 威 泽 尔 和 大 卫 。 休 伯 尔 。 哈 佛 医 学 院 神 经 生物 
学 系 成 立 于 1966 年 ， 这 张 照 片 拍 摄 于 成 立 后 不 久 。 工 作 日 里 ， 我 从 来 没有 见 过 他 们 中 的 任何 一 
个 人 在 实验 室 里 戴 着 领带 ， 所 以 这 张 照片 一 定 是 在 特殊 场合 拍摄 的 。 图 片 来 源 : 哈佛 医学 院 。 


在 1953 年 一 个 结果 对 所 有 哺乳 动物 都 成 立 的 经 典 实验 中 ， 斯 带 分 : 
库 夫 勒 〈 见 图 5-2， 左 ) 记录 了 活 猫 的 视网膜 输出 神经 元 对 光斑 刺激 的 
放电 啊 应 。 他 在 报告 中 写 道 ， 当 光斑 作用 于 菏 些 输出 神经 元 的 中 心 区 域 
时 ， 会 出 现 放 电 增 加 的 现象 ， 而 当 光 斑 作 用 于 为 一 些 输 出 神经 元 的 中 心 





区 域 时 ， 却 出 现 了 放电 减少 的 现象 。 然 而 ， 在 中 心 的 外 沿 区 域 的 表现 恰 
恰 相 反 : 给 光 中 心 带 有 撤 光 外 沿 ， 撤 光 中 心 带 有 给 光 外 沿 ( 见 图 5- 

3) 。 神 经 节 细 胞 对 光斑 模式 的 反应 被 称 为 "感受 野 ”(receptive field) 特 
性 。 


中 心 给 光 放 电 中 心 撤 光 放 电 





图 5-3 视网膜 中 神经 节 细 胞 的 响应 特性 。 这 两 个 环形 代表 了 视网膜 中 两 种 对 大 脑 发 送 编 码 信 
息 ， 从 而 让 人 产生 视觉 的 神经 节 细 胞 类 型 。 对 于 中 心 给 光 放 电 (on-center) 类 型 ， 光 斑 投 射 到 
中 心 “ 给 光 区 域 ” (+) ， 并 且 外 围 “ 撤 光 区 域 ” C) 无 光 时 ， 会 产生 一 系列 放电 尖峰 。 而 中 
心 撤 光 放电 (off-center) 类 型 则 相反 ， 光 斑 投 射 到 外 图 (+) , FAPS (2 无 光 时 ， 会 产 
生 一 系列 放电 尖峰 。 光 照 的 变化 包含 了 研究 对 象 周围 的 移动 刺激 和 对 比 边界 的 重要 信息 。 这 些 
特性 是 斯 浸 芬 。 库 夫 勒 于 1953 年 发 现 的 。 





库 夫 勒 的 主要 研究 兴趣 是 神经 元 之 间 突 触 的 特性 。 我 曾经 问 他 ， 是 
什么 让 他 对 研究 视网膜 产生 了 兴趣 。 他 说 ， 他 之 前 的 实验 室 隶 属于 约翰 
. 霍 普 金 斯 大 学 的 威 尔 默 眼科 研究 所 (Wilmer Eye Institute) ， 他 的 研究 
要 是 跟 眼 科 无 关 ， 他 会 对 此 感到 不 安 。 他 在 对 视网膜 中 单个 神经 节 细 胞 
的 研究 中 做 了 些 开 创 性 的 工作 ， 随 后 把 这 个 研究 项 目 交 给 了 他 实验 室 的 
两 位 博士 后 一 一 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 ， 并 建议 他 们 追踪 信号 进 
入 大 脑 的 过 程 。1966 年 ， 库 夫 勒 和 他 的 博士 后 研究 员 转 到 哈佛 医学 院 ， 
创立 了 世界 上 第 一 个 神经 生物 学 系 。 








大 脑 及 层 中 的 视觉 
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的 反应 比 点 状 光斑 更 强烈 。 皮 层 内 的 回路 已 经 对 输入 信号 进行 了 转换 。 
他 们 描述 了 两 种 主要 类 型 的 细胞 ， 定 癌 的 简单 细胞 ， 具 有 像 神 经 市 细胞 
那样 的 给 光 和 撤 光 区 域 〈 见 图 5-4) ; 以 及 定向 复杂 细胞 ， 其 神经 元 感 
受 野 里 的 任何 位 置 对 定 问 刺激 都 会 产生 同样 的 啊 应 〈 见 图 5-5) 。 








图 5-4 猫 的 初级 视觉 皮层 中 简单 细胞 的 感受 野 。 这 张 图 片 来 自体 伯 尔 和 威 泽 尔 在 1962 年 发 表 的 
论文 中 关于 发 现 简单 细胞 的 描述 。 十 字 花 代表 视野 中 光斑 会 产生 给 光 响 应 的 位 置 ， 而 三 角形 代 
表 撤 走光 斑 会 产生 撤 光 响应 的 位 置 。 CA) 视网膜 中 的 中 心 给 光 响 应 细胞 〈 对 比 图 5-3 左 侧 的 示 
意图 ) 。(B) 视 网 膜 细 胞 中 的 中 心 撤 光 响应 细胞 〈 对 比 图 5-3 右 侧 的 示意 图 ) 。 (0-8) 初级 视觉 
皮层 中 多 样 的 简单 细胞 感受 域 ， 与 视网膜 中 的 感受 野 相 比 ， 所 有 这 些 区 域 都 被 拉 长 了 ， 并 且 给 
光 区 和 撤 光 区 的 分 布 更 加 复杂 。 图 片 来 源 : D. H. Hubel and T. N. Wiesel, “Receptive 
Fields, Binocular Interaction and Functional Architecture in the Cat' s Visual 
Cortex, " Journal of Physiology160, no. 1 (1962): 106-154. 2， 图 2。 





图 5-5 猫 的 初级 视觉 皮层 中 一 个 复杂 细胞 的 响应 。 这 张 图 片 来 自体 伯 尔 和 威 泽 尔 在 1962 年 发 表 
的 论文 中 关于 发 现 复杂 细胞 的 描述 。 只 要 方向 正确 (图 中 A、B、C 这 三 条 记录 ) ， 一 个 长 而 罕 的 
黑 条 会 引起 大 量 放电 (LEER) 响应 ， 无 论 它 位 于 复杂 细胞 感受 野 〈 虚 线 ) 内 的 哪个 位 置 。 
而 非 最 优 方向 会 导致 较 弱 的 响应 ， 或 根本 没有 响应 〈 图 中 D、E 这 两 个 记录 ) 。 图 片 来 源 : D. H. 
Hubel and T. N. Wiesel, “Receptive Fields, Binocular Interaction and Functional 
Architecture in the Cat’ s Visual Cortex, " Journal of Physiology160, no. 1 
(1962) :106 - 154. 2， 图 7。 








视觉 皮层 中 的 每 个 皮层 神经 元 都 可 以 被 认为 是 一 个 视觉 特征 检测 
器 。 在 视野 中 的 特定 区 域 ， 当 某 些 神经 元 所 偏好 的 特征 信号 输入 高 于 某 
个 效 值 时 ， 这 些 神经 元 就 会 被 激活 。 每 个 神经 元 伺 好 的 特征 取决 于 它 与 
其 他 神经 元 的 连接 。 哺 乳 动 物 的 新 皮层 (neocortex) 有 6 个 特异 化 的 层 
级 。 休 伯 尔 和 威 泽 尔 还 发 现 ， 来 自 两 眼 的 输入 在 皮层 中 间 层 (4) 左右 
交 丛 排列， 这 些 输入 源 自 丘脑 投射 的 中 继 站 。 第 4 层 的 单 目 神 经 元 投射 











到 上 层 (2 和 3) KWAA, ETRE BONA A, Je EE BIER] EBORE SUC 
皮层 区 域 ， 又 向 下 投射 到 底层 GM6) ， 底 层 又 会 投射 到 下 皮层 。 一 段 
视神经 元 柱 中 每 个 细胞 的 方 同 偏好 和 主 眼 偏好 是 相同 的 ， 并 且 在 整个 皮 
层 内 平滑 地 变化 〈 见 图 5-6) 。 








图 5-6 初级 视觉 皮层 中 一 段 神经 元 柱 的 立方 模型 。 在 垂直 方向 上 ， 所 有 神经 元 都 具有 相同 的 方 
向 偏好 和 主 眼 优势 。 在 每 平方 毫米 的 皮层 下 ， 有 一 整套 穿 过 皮层 表面 缓慢 变化 的 朝向 《立方 体 
的 前 面 ) ， 以 及 来 自 双眼 (立方 体 的 右 侧 ) 的 输入 。 图 片 来 源 : D. Hubel, Eye, Brain and 
Vision(New York: WH Freeman and Company, 1988), 131. 


突 触 的 可 塑性 


如 果 一 只 猫 的 一 只 眼睛 在 其 生命 的 最 初 几 个 月 内 被 缝合 ， 那 么 通常 
由 双眼 驱动 的 皮层 神经 元 将 变 成 单眼 驱动 ， 只 由 睁 开 的 那 只 眼睛 支 
配 。! 纪 单眼 剥夺 改变 了 初级 皮层 中 突 触 的 强度 ， 初 级 皮层 是 神经 元 首 
次 接收 来 自 两 只 眼睛 的 会 聚 输入 的 地 方 。 在 初级 视觉 皮层 的 皮层 可 塑性 
关键 期 结束 后 ， 闭 合 的 眼睛 将 再 也 不 能 影响 皮层 神经 元 ， 这 样 就 会 导致 
一 种 “弱视 ”症状 。 尽 管 在 婴儿 中 常见 的 未 矫正 、 未 对 准 或 “斜视 ”状况 会 
大 大 减少 双眼 皮质 神经 元 的 数目 ， 并 且 阻 止 了 双眼 深度 知觉 ，[ 站 但 如 
果 在 关键 期 内 及 时 进行 矫正 眼睛 的 手术 ， 仍 然 可 以 挽救 双眼 神经 元 。 


单眼 剥夺 是 发 育 早期 阶段 存在 的 有 关 高 度 可 塑性 的 一 个 例子 ， 因 为 
环境 会 影响 皮层 和 大 脑 其 他 部 位 的 神经 元 之 间 的 突 触 连接 。 这 些 依赖 于 














活动 的 变化 凌驾 于 所 有 细胞 持续 不 断 的 更 新 之 上 。 尽 管 我 们 大 脑 中 的 大 
部 分 神经 元 与 我 们 出 生 时 的 神经 元 并 无 二 致 ，[ 蚀 但 几乎 每 个 神经 元 的 
组 成 部 分 和 连接 它们 的 突 触 ， 每 天 都 会 发 生 转变 。 磨 损 的 蛋白 质 会 被 蔡 
换 ， 膜 中 的 脂 质 也 会 被 更 新 。 有 了 这 么 多 的 动态 转变 ， 就 很 难 解释 记忆 
是 如 何在 我 们 的 有 生 之 年 得 以 维持 的 了 。 

还 有 另外 一 种 关于 记忆 持久 性 的 可 能 解释 : 它们 也 许 就 像 我 们 身体 
上 的 伤疤 ， 已 经 成 为 我 们 生活 中 过 往事 件 的 标记 。 这 些 标记 并 非 位 于 不 
断 发 生 转 变 的 神经 元 内 部 ， 而 是 位 于 外 部 神经 元 之 间 的 空 阶 中 ， 那 里 的 
细胞 外 基质 由 类 似 疤痕 组 织 中 胶原 蛋白 的 蛋白 聚 糖 构成 ， 这 种 基质 是 一 
种 可 以 维持 多 年 的 坚韧 的 材料 。 辕 如果 这 个 猜想 被 证 明 是 真实 的 ， 那 
就 意味 着 我 们 的 长 期 记忆 被 伐 入 了 大 脑 的 “外 骨骼 "中 ， 而 我 们 一 直 都 找 
$7; p. [9] 
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经 元 上 相应 受 体 的 激活 。 在 大 多 数 情 况 下 ， 突 触 强度 可 以 选择 性 地 在 很 
大 范围 内 增加 或 减少 ， 在 皮层 中 ， 这 个 变化 范围 是 100 倍 。 在 大 脑 中 
发 现 的 突 触 学 习 算 法 的 实例 将 在 后 面 的 章节 中 讨论 。) 更 为 显著 的 是 ， 
皮层 中 会 不 断 形成 新 的 突 触 ， 并 移 除 旧 的 突 触 ， 这 就 让 它们 成 为 映 体 中 
最 具 活 力 的 细胞 器 。 大 脑 中 有 大 约 100 种 不 同类 型 的 突 触 ， 其 中 谷 氨 酸 
是 皮层 中 最 常见 的 兴奋 性 神经 递 质 ， 而 男 一 种 氨基 酸 一 一 y- 和 氨基 古 酸 
(GABA) 是 最 常见 的 抑制 性 神经 递 质 。 这 些 神 经 递 质 分 子 对 其 他 神经 
元 的 电化 学 影响 伴随 着 很 宽泛 的 时 间 过 程 。 例 如 ， 第 4 章 中 讨论 的 牛蛙 
交感 神经 贡 细 胞 的 突 触 ， 其 啊 应 时 间 斥 度 可 以 从 坚 秒 到 分 钟 。 
































通过 阴影 脑 补 立体 全 貌 





ae CAH GE (Steven Zucker) ( 见 图 5-7) 专注 于 融合 了 计算 机 视 
觉 和 生物 视觉 的 交叉 领域 的 研究 。 从 我 认识 他 起 ， 他 就 在 写 一 本 解释 视 


"e LTEEZERLB. SIEEDOZUS30E IET. HAET EE LEEA TU 
LAB ARTA AE, RST ei ree (Laurence Sterne) 在 小 说 《项 
Ste) PHS IX AUK (Tristram Shandy) ABE, sb XA 
B EA Zt m ee. TS) aR a TEE WT RUM 
觉 皮 层 的 精巧 、 规 则 的 结构 〈 见 图 5-6) ， 这 是 一 种 不 同 于 皮层 中 任何 
其 他 部 位 的 结构 ， 其 中 的 神经 元 以 近似 马赛 克 式 的 排列 方式 组 织 起 来 ， 
这 种 排列 的 几何 解释 还 有 竺 探究 。 计 算 机 视觉 领域 的 大 多 数 研究 人 员 和 希 
望 通过 将 对 象 从 背景 中 分 割 出 来 ， 并 找到 一 些 可 辨识 的 特征 来 识别 对 
象 。 

史 带 文 还 有 更 大 的 野心 ， 想 要 了 解 我 们 如 何 从 表面 阴影 以 及 折 痕 和 
初 皱 中 提炼 出 物体 的 形状 。 在 2006 年 神经 科学 学 会 的 年 会 上 ， 那 个 把 房 
子 建 得 像 船 山 一 样 的 建筑 师 弗 兰 元 :新 里 (Frank Gehry) ， 在 接受 采访 
时 ， 被 问 及 他 的 建筑 设计 灵感 从 何 而 来 。 呈 QI 他 回答 说 ， 灵 感 来 自 对 被 
揉 皱 的 纸张 的 观察 。 但 是 ， 我 们 的 视觉 系统 又 是 如 何 通过 裙 外 和 阴影 
面 的 复杂 图 案 ， 把 皱 巴 巴 的 纸张 的 复杂 形状 拼合 起 来 的 呢 ? 我 们 是 如 何 
感知 西班牙 毕 尔 巴 哪 市 (Bilbao) 上 古 根 海 姆 博物 馆 (Guggenheim 
Museum， 见 图 5-8) 外 墙 那 多 变 的 形状 的 呢 ? 

















图 5-7 耶鲁 大 学 史 蒂 文 。 祖 克 ， 光 从 照片 右上 角 打 下 来 。 从 他 毛衣 上 的 阴影 变化 中 ， 你 可 以 察 
觉 到 衣服 神 秆 的 形状 。 他 身后 黑板 上 的 方程 式 解 释 了 为 什么 我 们 能 识别 这 种 现象 ， 这 一 灵感 来 
自 猴 子 的 视觉 皮层 。 图 片 来 源 : RL HR. 





图 5-8 西班牙 毕 尔 巴 郭 市 的 十 根 海 姆 博物 馆 ， 由 弗兰克 。 盖 里 设计 。 来 自 曲面 的 阴影 和 反射 形 
成 了 强烈 的 结构 感 和 动感 。 可 以 参照 通道 上 的 人 影 大 小 来 体会 这 幢 宏 伟 建 筑 的 规模 。 


史 锅 文 ' 祖 死 最 近 已 经 能 够 搞 清 楚 我 们 是 如 何在 有 阴影 的 图 像 中 看 
到 初 皱 的 ， 其 背后 的 解释 是 基于 类 似 山体 等 高 线 图 的 表面 三 维 轮廓 ， 以 
及 图 像 上 等 照度 轮廓 之 间 的 密切 关系 〈 见 图 5-9) 。 卫 于 这 种 关联 源 于 
表面 的 几何 形状 。L3 这 解释 了 为 什么 我 们 对 形状 的 感知 几乎 不 受 照 明 
以 及 物体 表面 性 质 差 异 的 影响 。 这 也 可 以 解释 为 什么 我 们 非常 善于 阅读 
轮廓 明显 的 等 高 线 地 图 ， 以 及 为 什么 只 需要 几 条 特殊 的 内 线束 可 以 看 出 
漫画 中 物体 的 形状 。 

















图 5-9 同一 平面 的 等 高 线 图 (EL) 和 等 照度 线 (恒定 亮度 轮廓 线 ， 左 下 ) 。 两 者 在 轮廓 右 侧 
显示 的 临界 点 之 间 产 生 了 相同 的 分 区 。 图 片 来 源 : Kunsberg and Zucker, “Critical 
Contours: An Invariant Linking Image Flow with Salient Surface Organization, ”图 5。 





1988 年 ， 西 德 尼 . 莱 基 (Sidney Lehky) 和 我 有 了 一 个 想法 ， 我 们 也 
许可 以 训练 一 个 只 有 一 层 隐 藏 单元 的 神经 网 络 来 计算 阴影 曲面 的 曲 
率 。 了 3 引 我 们 成 功 了 ， 而 且 出 人 意料 的 是 ， 隐 藏 单元 的 表现 跟 简单 细胞 
非常 相似 。 但 仔细 观察 后 ， 我 们 发 现 并 非 所 有 这 些 “ 简 单 细胞 ”都 是 相同 
的 。 通 过 查看 它们 对 输出 层 的 投影 一 该 输出 层 被 训练 通过 使 用 学 习 算 
法 〈 见 第 8 章 ) 来 计算 曲率 一 我 们 发 现 一 些 隐藏 单元 被 用 于 分 辨 正 曲 
率 ( 凸 起 ) AH CMBR) 〈 见 图 5-10) 。 和 一 些 简 单 细胞 一 样 ， 这 
些 单元 是 检测 器 ， 它 们 往往 要 么 是 低 响应 ， 要 么 是 高 响应 ， 其 响应 活动 
时 双 峰 分 布 。 相 比 之 下 ， 隐 藏 层 中 的 其 他 单元 具有 分 级 响应 的 功能 ， 可 
以 像 滤波 器 一 样 向 输出 单元 发 送 关 于 曲率 方向 和 大 小 的 信息 。 

















图 5-10 阴影 中 的 曲率 。 我 们 的 视觉 系统 可 以 从 边界 轮廓 内 亮度 的 缓慢 变化 中 提取 对 象 的 形状 。 
你 可 以 根据 阴影 方向 以 及 你 对 照明 方向 的 假设 〈 通 常 假 设 为 正 上 方 ) ADPAPHR HAY 
陷 。 上 下 颠倒 这 幅 图 ， 看 看 它们 是 否 反 过 来 了 。 图 片 来 源 : V. S. Ramachandran, 
“Perception of Shape from Shading, ” Nature331, no. 6152(1988)， 图 2。 


这 一 结论 令 人 惊讶 : 神经 元 的 功能 不 仅仅 取决 于 它 如 何 对 输入 做 出 
反应 ， 而 且 还 取决 于 它 通过 自身 的 “投射 域 ? 激 活 的 下 游 神 经 元 。 一 个 神 
经 元 的 输出 一 直 以 来 都 比 它 的 输入 更 难 确定 ， 但 新 的 遗传 学 和 解剖 学 技 
术 使 得 精确 追踪 下 游 的 轴 帘 投射 成 为 可 能 。 新 的 光 遗 传 学 技术 也 使 得 选 
择 性 刺激 特定 神经 元 ， 以 探测 其 对 感知 和 行为 的 影响 成 为 可 能 。 了 细 即 
便 如 此 ， 我 们 的 小 规模 神经 网 络 只 能 识别 突起 或 凹陷 的 曲率 ， 而 我 们 仍 
然 不 知道 在 心理 学 文献 中 被 称 为 “格式 塔 ” (Gestalts) 由 的 整体 组 织 认 
知 是 如 何在 皮层 中 分 布 的 。 


1984 年 ， 史 带 文 " 祖 殉 和 我 曾 被 困 在 丹佛 斯 台 普 顿 (Stapleton〉 国 际 
机 场 ， 我 们 的 航班 因 骏 风 雪 而 延误 了 。 那 会 儿 我 们 对 当时 正 处 于 起 步 阶 
段 的 计算 神经 科学 感到 兴奋 不 已 ， 于 是 盘算 着 创建 一 个 研讨 会 ， 将 计算 
和 实验 研究 人 员 聚 集 在 一 起 。 我 们 决定 把 地 点 定 在 伍兹 霍 尔 ， 我 曾经 在 
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去 ， 与 斯 带 芬 ' 库 夫 勒 一 起 在 海洋 生物 实验 室 做 过 生理 实验 。 伍 效 霍 尔 
古 鲁 鱼 角 附近 的 一 个 美丽 的 村 子 ， 离 波士顿 不 远 。 多 年 来 ， 许 多 视觉 研 
究 领 域 的 领军 人 物 痢 参加 了 这 个 年 度 研 讨 会 ， 这 对 我 来 说 是 男 一 个 科学 
制 蜗 扩 。 视 觉 皮 层 计算 理论 就 诞生 于 这 些 研讨 会 ， 尺 管 对 该 理论 的 确认 
还 需要 30 年 。《〈 在 第 9 章 中 ， 我 们 将 看 到 最 成 功 的 深度 学 习 网 络 的 结构 
与 视觉 皮层 的 结构 非 第 相似。) 








视觉 区 域 的 层级 结构 


FPR Rt (Jon Kaas〉 和 约翰 : 奥 尔 曼 (John Allman) 于 20 世 纪 70 
年 代 早 期 ， 在 威斯康星 大 学 神经 生理 学 系 研 究 从 初级 视觉 皮层 接受 输入 
的 皮层 区 域 ， 发 现 了 不 同 区域 具 有 不 同 的 特性 。 例 如 ， 在 一 个 他 们 称 
H FERH” (middle temporal cortex) 或 “MT” 的 区 域 ， 他 们 发 现 
了 一 些 视觉 区 域 ， 它 们 的 神经 元 对 定 问 移动 的 视觉 刺激 能 够 做 出 反应 。 
奥 尔 曼 癌 我 提 到 ， 他 们 当时 很 难 让 系 主 任 克 林 顿 : 伍 尔 西 (Clinton 
Woolsey) 接受 这 个 发 现 。 卡 斯 和 奥 尔 曼 用 较 先进 的 记录 技术 发 现 了 这 
些 纹 外 视觉 皮层 Cextrastriate visual cortex) 的 区 域 ， 而 在 较 早 的 实验 
中 ， 伍 尔 西 由 于 使 用 的 记录 技术 相对 粗糙 ， 与 这 一 发 现 擦 肩 而 过 。LL 人 8 
最 近 的 研究 在 猴子 的 视觉 皮层 中 找到 了 二 十 几 个 视觉 区 域 。 

1991 年 ， 还 在 加 州 理 工学 院 的 大 卫 . 范 : 艾 森 (David Van Essen) ff 
细 研 究 了 皮层 每 个 视觉 区 域 的 输入 和 输出 ， 并 将 它们 按 层 级 排列 了 出 来 
〈 见 图 5-11) 。 这 张 图 有 时 仅仅 被 用 于 说 明 皮 层 的 复杂 性 。 它 就 像 一 座 
大 城市 的 地 铁 图 ， 其 中 方 框 代 表 地 铁 站 ， 各 种 颜色 的 线 代 表 地 铁 线 路 。 
视网膜 神经 节 细 胞 CRGCO 的 视觉 输入 投射 到 网 表 底 部 的 初级 视觉 皮层 
(V1) 。 从 那里 开始 ， 信 和 号 被 同上 传送 到 层级 结构 中 ， 每 个 区 域 专 门 
负责 视觉 的 不 同方 面 ， 例 如 形态 感知 。 靠 近 图 右 侧 的 层级 示意 图 顶部 ， 
下 里 叶 皮 层 的 前 部 、 中 部 和 后 部 (AIT、CIT 和 PIT) 区 域 中 的 神经 元 的 











感受 野 覆 盖 了 整个 视觉 区 域 ， 并 对 复杂 的 视觉 刺激 如 脸 部 和 其 他 对 象 做 
出 优先 反应 。 虽 然 我 们 不 知道 神经 元 是 如 何 做 到 这 一 点 的 ， 但 我 们 确实 
知道 连接 的 强度 可 以 通过 经 验 来 改变 ， 如 此 一 来 ， 神 经 元 就 可 以 学 习 如 
何 对 新 对 象 做 出 反应 。 范 : 艾 森 后 来 去 了 圣路易斯 的 华盛顿 大 学 ， 在 那 
里 他 被 任命 为 NIH 资 助 的 人 脑 连 接 组 项 目 (HCP) MRS EE. Dn 
的 研究 小 组 的 工作 是 使 用 基于 磁 共 振 成 像 (MRI) 技术 ，L 引 来 生成 人 
体 大 脑 皮层 中 的 长 程 连接 图 〈 见 图 5-12) 。 
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图 5-11 猴 脑 中 视觉 区 域 的 层级 结构 图 。 视 觉 信 息 从 视网膜 神经 节 细 胞 (RGC) BRAD S| éco hg 7p 
侧 膝 状 核 (LGN) ， 其 中 继 细胞 投射 到 初级 视觉 皮层 (V1) 。 皮 层 区 域 的 层级 结构 终止 于 海马 体 
(HC) 。 图 中 所 有 的 187 个 连接 几乎 都 是 双向 的 ， 有 源 自 较 低 区 域 的 前 馈 连 接 和 源 自 较 高 区 域 的 
反馈 连接 。 图 片 来 源 : D. J. Fellemanand D. C. Van Essen，“Distributed Hierarchical 
Processing in Primate Visual Cortex," Cerebral Cortexí,no. 1 (1991): 30， 图 4。 





图 5-12 人 脑 连 接 组 。 基 于 水 分 子 不 均匀 扩散 的 磁 共 振 成 像 能 够 以 一 种 非 侵入 性 的 方式 追踪 脑 和 白 
质 中 的 长 程 纤维 束 。 不 同 的 颜色 标注 了 不 同 的 路 径 方 向 。 图 片 来 源 : The Human Connectome 


Project。 


认 知 神经 科学 的 诞生 


1988 年 ， 我 曾 服 务 于 麦克 唐 奈 和 皮 尤 基金 会 (McDonnell and Pew 
Foundations) 的 一 个 委员 会 ， 需 要 走访 知名 的 认 知 科学 家 和 神经 科学 








家 ， 就 如 何 启动 一 个 名 为 “ 认 知 神经 科学 ”的 新 领域 听取 建议 。D 引 该 委 
员 会 辊 转 于 世界 各 个 国家 ， 与 专家 会 面 ， 听 取 他 们 关于 哪些 科学 专题 最 
有 前 途 ， 以 及 在 哪里 建设 新 的 认 知 神经 科学 研究 中 心 的 建议 。8 月 的 一 
个 烈日 炎炎 的 下 午 ， 我 们 在 哈佛 大 学 教员 俱乐部 征询 了 杰 瑞 : 福 多 
(Jerry Foder) 的 意见 ， 他 是 思想 语言 方面 的 专家 ， 也 是 模块 化 思想 的 
倡导 者 。 他 开门 见 山 ， 直 接 驳 斥 了 我 们 的 战略 ,“ 认 知 神经 科学 不 是 一 
门 科 学 ， 而 且 永 远 不 会 是 ”。 他 给 人 的 印象 是 ， 他 已 经 阅读 了 关于 视觉 
和 记忆 的 所 有 神经 科学 论文 ， 但 这 些 文 章 都 没有 达到 他 的 标准 。 但 是 当 
他 评论 说 “麦当劳 基金 会 正在 浪费 它 的 资金 时， 麦克 唐 妹 基金 会 主席 约 
iS John Bruer) 立刻 束 指 出 ， 福 多 把 他 的 基金 会 和 街头 制作 汉 
堡 包 的 地 儿 搞 混 了 。 

福 多 丝 室 不 为 所 动 。 他 解释 了 为 什么 头脑 应 该 被 当 作 运行 智能 计算 
机 程序 的 模块 化 符号 处 理 系 统 。 加 州 大 学 圣 友 戈 分 校 的 哲学 家 帕 特 里 夏 
EA (Patricia Churchland) 问 他 的 理论 是 否 也 适用 于 猪 。 “是 
的 ，” 福 多 说 ,“ 猫 正在 运行 猪 程 序 。” 但 是 当 NIH 研 究 视 觉 和 记忆 的 神经 
BEAR ER OK ATS (Mortimer Minshkin) 让 他 介绍 他 自己 的 实验 室 
的 发 现时 ， 福 多 嘟 喷 着 说 了 一 些 我 听 不 太 懂 的 话 ， 好 像 是 关于 在 语言 实 
验 中 的 事件 相关 电位 。 季 运 的 是 ， 那 一 刻 ， 消 防 演习 的 警 铃 啊 了 ， 我 们 
都 被 要 求 去 室外 等 待 。 站 在 院子 里 ， 我 听 到 米 什 金 对 福 多 说 :“ 那 些 都 
是 雕 虫 小 技 坟 了 。” 演 习 结 束 后 ， 福 多 就 再 没 出 现 。 

认 知 神经 科学 已 经 发 展 成 为 一 个 重要 的 领域 ， 吸引 了 各 个 科学 领域 
的 很 多 研究 人 人员， 包括 社会 心理 学 和 经 济 学 ， 这 些 领 域 以 前 与 神经 科学 
很 少 有 或 没有 任何 直接 联系 。 使 这 一 切 成 为 可 能 的 是 在 20 世 纪 90 年 代 早 
期 采用 的 非 侵 入 式 大 脑 活动 可 视 化 方法 ， 尤 其 是 功能 磁 共 振 成 像 
(CMRI) ， 其 目前 的 空间 分 辩 率 为 几 坚 米 。fMRI 生 成 的 庞大 的 成 像 数 
据 集 被 交 由 新 的 计算 方法 进行 分 析 ， 如 独立 分 量 分 析 〈 将 在 第 6 章 讨 
iE) s 


由 于 大 脑 在 缺 氧 的 情况 下 无 法 运转 ， 并 且 血 流 在 亚 坚 米 级 别 被 严格 












































控制 ，fMRI 所 测量 的 血 氧 水 平 依赖 (BOLD ) 信和 号 就 被 当 作 大 脑 活动 的 
蔡 代 指标 。 血 液 中 的 含 氧 量 改变 了 它 的 磁性 ， 可 以 用 fMRI 进行 无 创 监 
测 ， 并 且 以 几 秒 的 时 间 分 辩 紊 产生 大 脑 活动 的 动态 图 像 。 这 种 时 间 分 辨 
率 足 够 奶 踪 在 实验 过 程 中 大 脑 的 哪些 部 分 在 活动 。fMRI 已 经 被 用 于 探 
过 视觉 层级 结构 不 同 部 分 的 时 值 整合 。 

普林斯顿 大 学 的 尤 里 : 哈 森 (Uri Hasson) 进行 了 一 项 fMRI 实验 ， 由 
在 探究 视觉 层级 的 哪些 部 分 涉及 处 理 不 同 长 度 的 电影 。 上 叫 查 理 - 卓 别 林 
(Charlie Chaplin) 的 无 声 电 影 被 剪辑 为 4 秒 、12 秒 和 36 秒 的 片段 呈现 给 
受 试 者 。 在 4 秒 的 剪辑 中 ， 受 试 者 可 以 识别 一 个 场景 ，12 秒 时 ， 可 以 看 
清 连 接 的 动作 ; 在 36 秒 的 长 度 下 ， 能 够 看 到 一 个 有 开头 和 结尾 的 故事 。 
在 层级 底部 的 初级 视觉 皮层 中 的 fMRI 反 应 ， 无 论 在 什么 样 的 时 间 尺 度 
上 ， 都 强大 且 可 靠 。 但 在 视觉 等 级 的 较 高 层次 上 ， 只 有 较 长 的 时 间 尺 度 
才能 引起 可 靠 的 反应 ， 而 位 于 层级 顶层 的 前 额 叶 皮层 区 需要 最 长 的 时 间 
间隔 。 这 与 其 他 实验 结果 一 致 ， 即 工作 记忆 也 按照 层级 分 布 。 工 作 记 忆 
是 我 们 掌握 信息 的 能 力 ， 比 如 要 记 住 的 电话 号 码 ， 以 及 我 们 正在 处 理 的 
任务 的 要 素 。 最 长 的 工作 记忆 时 间 尺 度 同 样 位 于 前 额 叶 皮层 。 


作为 神经 科学 中 最 让 人 兴奋 的 学 术 领 域 之 一 ， 对 大 脑 学 习 行 为 的 研 
完 可 以 在 不 同 的 层面 进行 ， 从 分 子 层 面 到 行为 层面 。 
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要 事 年 表 


1949 年 


唐纳德 。 圭 布 (Donald Hebb) 出 版 了 《行为 的 组 织 》 (The 
Organization of Behavior) 一 书 ， 提 出 了 有 关 突 触 可 塑性 的 赫 布 定 
律 (Hebb Rules) 。 


1982 年 
234 e Æ ËE Ri (John Hopfield) 发 表 了 文章 《具有 突 发 性 集 
体 计 算 能 力 的 神经 网 络 和 物理 系统 》 (Neural Networks and 


Physical Systems with Emergent Collective Computational 
Abilities) ， 其 中 介绍 了 霍 普 菲尔德 网 络 (Hopfield net) . 


1985 年 


杰 旨 里 。 辛 顿 和 我 发 表 了 文章 《 玻 尔 次 曼 机 的 一 种 学 习 算 法 》 (A 
Learning Algorithm for Boltzmann Machines) ， 这 是 马 文 。 明 斯 
基 和 西 摩尔 。 帕 善 特 被 广泛 接受 的 观点 的 反例 ， 后 者 认为 为 多 层 网 络 
开发 学 习 算 法 是 不 可 能 的 。 


1986 年 
大 卫 。 鲁 姆 哈 特 (David Rumelhart) 和 杰 弗 里 。 辛 顿 发 表 了 文章 
《通过 误差 传播 学 习 内 在 表征 》 (Learning Internal 


Representations by Error-Propagation) ， 其 中 介绍 了 当前 用 于 深 
度 学 习 的 “ 反 传 ” (backprop) 学 习 算 法 。 


1988 年 
理 查 德 。 萨 顿 (Richard Sutton) 在 《机 器 学 习 》 杂 志 上 发 表 了 


文章 《通过 时 序 差分 方法 学 习 预 测 》 (Learning to Predict by the 
Methods of Temporal Differences) 。 时 序 差分 学 习 现 在 被 认为 是 
在 所 有 大 脑 中 进行 奖励 学 习 的 算法 。 


19954 


安东尼 。 贝 尔 (Anthony Bell) 和 我 发 表 了 文章 《一 种 用 于 讶 分 
离 和 盲 解 卷 积 的 信息 最 大 化 方法 》 (An  Information-Maximization 
Approach to Blind Separation and Blind Deconvolution) ， 描 述 
了 一 种 用 于 独立 分 量 分 析 (lndependent Component Analysis, 
ICA) 的 无 监督 算法 。 


2013 年 


杰 弗 里 。 辛 顿 在 2012 年 NIPS 会 议 上 发 表 的 论文 《深度 卷 积 神经 网 
络 下 的 ImageNet 分 类 》  (ImageNet Classification with Deep 
Convolutional Neural Networks) ,将 图 像 中 对 象 分 类 的 错误 率 降 
低 到 了 18%。 


2017 年 
度 学 习 网 络 程 序 AlphaGo， 击 败 了 围棋 世界 冠军 柯 洁 。 
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在 一 个 拥挤 的 鸡尾酒 会 上 ， 当 空气 中 弥漫 着 其 他 人 谈 笑 的 嘲 杂 声 
时 ， 想 要 听见 你 面前 的 人 说 话 是 很 费劲 儿 的 。 你 的 两 只 耳 条 有 助 于 你 把 
听力 集中 在 正确 的 方向 ， 而 你 的 记忆 可 以 填补 没 听 清 的 谈话 内 容 。 现 在 
想象 一 下 ， 房 间 里 正在 举行 一 个 有 100 人 参加 的 鸡尾酒 派对 ， 四 周 还 有 
100 个 以 任意 方 同 排 布 的 和 麦克风 。 每 个 麦克 风 都 会 采集 所 有 人 的 声音 ， 
但 是 每 个 麦 元 风 针 对 每 个 人 采集 的 声音 振幅 比 不同 。 是 否 有 可 能 设计 出 
一 种 算法 ， 将 每 种 声音 分 离 成 单独 的 输出 声 道 ? 或 者 更 复杂 上 点， 如 采 声 
音 来 源 是 未 知 的 ， 比 如 混合 了 音乐 、 拍 手 声 、 自 然 声 首 ， 甚 至 是 随机 的 
噪声 呢 ? 这 就 是 所 谓 的 “ 育 源 分 离 问 题 ”〈 见 图 6-1) 。 

1986 年 4 月 13 一 16 日 ， 在 犹他 州 雪 乌 城 举办 的 神经 网 络 计算 会 议 ， 
也 就 是 AIP 会 议 CNIPS 大 会 的 前 身 ) 上 ， 出 现 了 一 个 题 为 《利用 神经 网 
络 模型 进行 空间 或 时 间 自 适应 信号 处 理 》 (Space or Time Adaptive 
Signal Processing by Neural Network Models) 的 墙报 。 它 的 作者 詹 妮 : 埃 
罗 (Jeanny Herault) 和 元 里斯 带 安 :于 滕 (Christian Jutten) 使 用 了 一 种 
学 习 算 法 ， 对 输入 给 神经 网 络 模型 的 混合 正弦 波 〈 均 为 纯 频 率 〉 进行 了 
讶 分离， 并 指出 了 一 类 新 的 无 监督 学 习 算法 。 山 虽然 当时 还 不 知道 是 
人 盏 存在 一 种 可 以 盲 分 离 其 他 类 型 信号 的 通用 解决 方案 ， 但 十 年 之 后 ， 安 
东 尼 .贝尔 和 我 发 现 了 一 种 可 以 解决 一 般 问题 的 算法 。 所 | 






























































图 6-1 讶 源 分 离 。 凯 尔 和 斯 坦 在 有 两 个 麦克 风 的 房间 里 同时 说 话 。 每 个 麦克 风 会 从 扬声器 以 及 
房间 墙壁 反射 的 声音 里 采集 信号 。 该 实验 的 挑战 就 在 于 ， 如 何在 对 信号 的 相关 信息 一 无 所 知 的 
情况 下 将 两 个 声音 彼此 分 开 。 独 立 分 量 分 析 是 一 种 学 习 算 法 ， 可 以 在 不 了 解 信 息 源 的 情况 下 解 
决 这 个 问题 。 


在 哮 杂 中 找到 你 的 声 首 





感知 器 是 一 个 有 单一 神经 元 的 神经 网 络 。 复 杂 度 略 高 于 感知 器 的 次 
简单 网 络 体系 结构 在 输出 层 中 有 多 个 模型 神经 元 ， 每 个 输入 神经 元 都 会 
连接 到 一 个 输出 神经 元 ， 该 结构 将 输入 层 中 的 模式 转换 为 输出 层 中 的 模 
式 。 这 个 网 络 不 仅 可 以 对 输入 进行 分 类 ， 还 可 以 学 习 如 何 进行 下 源 分 
[Ay o 








1986 年 ， 安 东 尼 .贝尔 〈 见 图 6-2) 还 是 一 名 在 苏黎世 联邦 理工 学 院 
(ETH Zurich)〉 进 行署 期 实习 的 本 科 生 。 他 很 早 就 对 神经 网 络 产 生 了 兴 
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塞 尔 大 学 获得 博士 学 位 后 ， 他 于 1993 年 前 往 拉 荷 亚 ， 加 入 了 我 的 实验 
室 ， 担 任 博 士 后 研究 员 。 
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图 6-2 正在 独立 思考 的 安东尼 。 贝 尔 ， 当 时 他 正在 从 事 独立 分 量 分 析 研 究 (照片 拍摄 于 1995 年 
前 后 ) 。 某 个 领域 的 专家 试图 解决 一 个 问题 时 ， 常 常 无 法 实现 突破 ， 有 时 反倒 是 第 一 次 接触 这 
个 问题 的 人 能 找到 新 方法 并 解决 问题 。 安东尼 和 我 发 现 了 一 种 迭代 算法 来 解决 育 源 分 离 问 题 ， 
这 个 算法 现在 已 经 是 工程 学 教科 书 里 的 内 容 ， 并 且 有 了 数 千 个 应 用 实例 。 图 片 来 源 : 安东尼 。 
贝尔 。 


“通用 信息 最 大 化 学 习 原 理 ”( general infomax learning principle) 最 
大 限度 地 提高 了 通过 网 络 传递 的 信息 量 。 二 安东尼 当时 正在 研究 树 突 
中 的 信号 传输 。 树 突 就 像 细 长 的 电缆 ， 大 脑 的 神经 元 通过 附 独 在 树 突 上 
的 数 以 生计 的 突 触 收集 信息 。 他 和 赁 直觉 认为 ， 通 过 改变 树 突 中 离子 通道 
的 密度 ， 可 以 最 大 限度 地 提高 树 突 中 流通 的 信息 量 。 在 简化 问题 的 过 程 
中 《忽略 树 突 ) ， 安 东 尼 和 我 发 现 了 一 种 新 的 信息 理论 学 习 算 法 ， 我 们 
称 之 为 “独立 分 量 分 析 ACA) ”， 它 解决 了 盲 源 分 离 问 题 (见方 框 
61). A 

















独立 分 量 分 析 已 经 有 了 数 千 个 应 用 实例 ， 而 且 已 经 出 现在 了 信号 处 
理 的 教科 书 中 。 忱 在 被 应 用 于 户外 场景 的 自然 图 像 的 碎片 中 时 ， 独 立 
分 量 分 析 的 独立 成 分 是 局 部 化 的 定向 边缘 滤波 器 〈 见 图 6-3) ， 类 似 于 
猫 和 猴子 的 视觉 皮层 中 的 简单 细胞 ( 见 图 5-4) 。[ 包 采用 独立 分 量 分 析 
方法 时 ， 只 需要 很 少 的 信息 源 就 能 重建 一 幅 图 像 中 的 一 个 图 块 ， 这 种 重 
建 在 数学 上 被 称 为 “稀疏 性 ”(sparse) . UI 





图 6-3 源 自 自然 图 像 的 独立 分 量 分 析 滤波 器 。 使 用 左 图 自然 场景 图 像 中 的 图 块 〈12X12 像 素 ) 
作为 输入 ， 通 过 有 具有 144 个 输出 单元 的 独立 分 量 分 析 网 络 得 到 输出 。 右 图 中 产生 的 独立 分 量 与 在 
初级 视觉 皮层 中 发 现 的 简单 细胞 类 似 : 它们 具有 局 部 性 和 定向 性 ， 分 为 正 区 域 〈 白 色 ) fex 
域 (黑色 ) ， 灰 色 区 域 代 表 零 点。 只 需要 几 个 滤波 器 就 可 以 表示 任何 给 定 的 图 块 ， 这 一 性 质 被 
称 为 “ 稀 朴 性 ”。 左 图 来 源 : Michael Lewicki; 右 图 来 源 : Bell and Sejnowski, “The 
“Independent Components’ of Natural Scenes Are Edge Filters," figure 4. 


立 分 量 分 析 是 如 何 工 作 的 





主 分 量 分 析 (PCA) 和 独立 分 量 分 析 CICA) 之 间 的 比较 。 图 
片 中 的 圆 点 表示 两 个 麦 元 风 分 别 在 垂直 和 水 平 轴 上 的 输出 。 每 个 点 
的 坐标 是 单个 时 间 点 记录 在 两 个 麦克 风 上 的 值 。PCA 是 一 种 非常 受 
欢迎 的 无 监督 学 习 技术 ， 它 挑选 出 将 两 个 信号 等 分 的 方向 ， 将 它们 
的 混合 程度 最 大 化 ， 并 且 PCA 轴 始终 相互 垂直 。ICA 找 到 沿 点 的 方 
向 伸展 的 轴 ， 来 表示 分 离 的 信号 ， 这 些 轴 可 能 不 是 垂直 的 。 








这 些 结果 证 实 了 20 世 纪 60 年 代 著 名 视觉 科学 家 霍 勒 斯 . 巴 洛 
(Horace Barlow) 的 猜想 ， 那 时 大 卫 . 休 伯 尔 和 托 斯 坦 . 威 泽 尔 已 经 在 视 
觉 皮层 中 发 现 了 简单 细胞 。 一 个 图 像 通常 包含 大 量 的 元 余 信 息 ， 因 为 附 
近 的 像素 通常 具有 相似 的 值 (例如 天 空 的 像素 ) 。 巴 洛 猜想 ， 通 过 减少 
自然 场景 表达 中 的 宛 余 ，[ 明 简单 细胞 就 能 够 更 有 效 地 传输 图 像 中 的 信 
息 。 整 个 学 界 花 了 50 年 的 时 间 ， 才 开发 出 数学 工具 来 证 实 他 的 直觉 。 
安东尼 和 我 还 认为 ， 独 立 分 量 分 析 被 应 用 于 自然 声音 时 ， 独 立 分 量 
是 具有 不 同 频率 和 持续 时 间 的 时 域 滤 波 器 ， 类 似 于 在 听觉 神经 系统 初期 
处 理 部 分 中 发 现 的 滤波 器 。 怀 这 使 得 我 们 相信 ， 在 试图 理解 感 观 信和 号 
是 如 何在 视觉 皮层 最 早期 的 处 理 阶 段 被 表征 这 一 基本 原则 的 道路 上 ， 我 
们 前 进 的 方向 是 正确 的 。 通 过 将 这 个 原理 扩展 到 线性 滤波 器 的 独立 特征 














子 空间 ， 就 可 以 在 视觉 皮层 中 建立 复杂 细胞 的 模型 。 了 0] 

独立 分 量 分 析 网 络 包 含 相同 数量 的 输入 和 输出 单元 ， 以 及 把 它们 完 
全 连接 起 来 的 一 组 权重 。 为 解决 盲 源 分 离 问 题 ， 麦 克 风 的 声 首 通过 输入 
层 输入 ， 每 个 麦 元 风 占 有 一 个 输入 单元 ， 而 独立 分 量 分 析 学 习 算法 《类 
似 感知 器 算法 ) 不 断 达 代 修 改 传递 到 输出 层 的 权重 ， 直 到 它们 收敛 。 但 
和 是， 不 同 于 感知 器 这 种 监督 学 习 算法 ， 独 立 分 量 分 析 是 一 种 无 监督 学 习 
算法 。 它 使 用 输出 单元 之 间 的 独立 性 度量 作为 代价 函数 ， 但 并 不 知道 输 
出 目标 应 该 是 什么 。 为 了 使 输出 尽 可 能 独立 ， 权 重 不 断 被 修改 ， 原 始 声 
源 就 被 完美 地 分 离开 来 ， 或 者 如 果 它 们 彼此 并 不 是 独立 的 ， 其 相关 性 也 
会 被 尺 可 能 地 去 除 控 。 无 监督 学 习 可 以 在 许多 不 同类 型 的 数据 集中 发 现 
以 前 未 知 的 统计 结构 。 











将 独立 分 量 分 析 应 用 于 大 脑 


我 实验 室 里 的 其 他 人 将 安东尼 :贝尔 的 信息 最 大 化 独立 分 量 分 析 算 
法 应 用 于 大 脑 的 不 同类 型 的 记录 ， 由 此 引发 了 一 系列 的 顿悟 时 刻 。1924 
年 ， 汉 斯 - 伯 格 (Hans Berger) 从 头皮 上 记录 了 大 脑 的 第 一 个 电信 和 号 ， 
被 称 为 脑 电 图 。 神 经 科学 家 利用 这 些 复杂 的 振荡 信号 来 监 昕 我 们 不 断 变 
化 的 大 脑 状态 ， 这 种 状态 随 我 们 的 警觉 性 和 感觉 运动 相互 作用 而 变化 。 
头皮 上 一 个 电极 处 的 电信 号 接收 来 自 大 脑 皮 层 内 许多 不 同 来 源 的 输入 ， 
也 接收 肌肉 和 了 眼球 运动 噪声 的 输入 。 每 个 头皮 电极 接收 来 自 大 脑 中 相同 
源 组 的 混合 信号 ， 这 些 信号 具有 不 同 的 振幅 ， 这 与 鸡尾酒 会 上 的 问题 如 
出 一 输 。 

20 志 纪 90 年 代 ， 斯 科 特 : 马 克 格 (Scott Makeig) 是 我 在 索 尔 克 研 究 
所 的 实验 室 里 的 研究 员 ， 他 使 用 独立 分 量 分 析 从 脑 电 图 记录 中 提取 了 大 
脑 皮层 中 的 几 十 个 偶 极 源 ， 以 及 它们 各 自 的 时 间 过 程 ( 见 图 6-4， . fà 
极 子 是 大 脑 信息 源 最 简单 的 模式 之 一 。 最 简单 的 是 由 单一 静电 电荷 产生 





























的 履 盖 整个 头皮 的 均一 模式 。 第 二 简单 的 模式 是 由 电流 直线 移动 产生 的 
偶 极 子 模式 ， 发 生 在 皮层 锥 体 神经 元 中 。 把 偶 极 子 想象 成 一 个 箭头 ， 头 
B Ein KAIN AE, 沿 箭 尾 的 方向 为 负 。 该 模式 覆盖 了 整个 头 部 ， 

这 就 是 为 什么 分 离 同 时 被 激活 的 许多 大 脑 信 息 源 非常 困难 。 从 脑 电 图 提 
取 的 两 个 信息 源 大 致 相当 于 图 6-4 中 的 偶 极 源 。 独立 分 

量 分 析 还 分 ) 离 了 噪声 ， 例 如 眼球 运动 和 电极 噪声 ， 这 些 噪 声 在 后 期 可 以 
以 很 高 的 精度 被 拓 除 (图 6-4 中 的 IC 1 和 IC4) 。 自 那 时 起 ， 数 以 千 计 已 
发 表 的 论文 都 在 使 用 独立 分 量 分 析 方 法 分 析 脑 电 图 记录 ， 并 在 使 用 独立 
分 量 分析 方 法 分 析 大 量 脑 状态 的 研究 领域 取得 了 重要 发 现 。 
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图 6-4 独立 分 量 分 析 被 应 用 于 头皮 脑 电 图 记录 。 在 俯视 角度 的 头皮 绘图 (鼻子 朝 上 ) P, RA 
的 位 置 是 电极 ， 某 个 时 间 点 的 电压 以 微 优 〈RhV) 为 单位 用 彩色 标注 。 左 侧 图 中 五 个 头皮 通道 显 
示 波 动 中 的 脑 电 图 信号 受到 了 来 自 瞬 眼 和 肌肉 信号 的 噪声 污染 。 独 立 分 量 分 析 可 以 将 大 脑 成 分 
与 噪声 分 开 ， 如 右 图 所 示 (其 中 “10C” 代 表 “ 独 立 分 量 ”) 。101 是 基于 缓慢 时 间 过 程 的 旺 眼 运 
动 ， ont ko 图 在 靠近 眼睛 的 地 方 数 值 最 高 (红色 ) 。104 是 肌肉 运动 噪声 ， 可 以 看 到 高 频 
率 、 高 振幅 的 唆 声 和 头皮 图 上 的 局 部 源 。102 和 10C3 是 大 脑 信息 源 ， 分 别 表 示 为 头皮 上 的 偶 极 模 
式 《 与 负 值 蓝 色 区 域 相 对 的 正 值 红 色 区 域 ) ， 和 来 自 脑 电 图 所 记录 的 头皮 上 更 复杂 的 模式 〈 如 
左边 头皮 绘图 所 示 ) 。 图 片 来 源 : Tzyy- Pins Jung. 


马丁 . 麦 基 沃 恩 (Martin McKeown) 当时 是 我 实验 室 的 一 名 博士 后 
研究 员 ， 具 有 神经 学 背景 。 他 研究 出 了 如 何 翻转 空间 和 时 间 ， 将 独立 分 
量 分 析 应 用 于 fMRI 的 记录 中 ( 见 图 6-5) 。 上 LL 基于 fMRI 的 脑 成 像 在 大 
脑 中 数 以 万 计 的 位 置 对 与 神经 活动 间接 相关 的 血 氧 水 平 进行 测量 。 在 图 
6-5 中 ， 独 立 分 量 分 析 信 息 源 是 与 其 他 信息 源 具 有 共同 时 间 进 程 ， 但 在 
空间 上 相互 独立 的 大 脑 区 域 。 空 间 域 的 稀 疏 性 意味 着 在 任何 给 定 的 时 
间 ， 只 有 少数 几 个 区 域 是 高 度 活 跃 的 。 
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图 6-5 独立 分 量 分 析 被 应 用 于 fMR1 数 据 。 每 个 分 量 由 一 个 大 脑 活动 图 和 一 个 时 间 过 程 组 成 。 这 
里 显示 了 几 种 不 同类 型 的 分 量 。 图 中 的 任务 代表 了 持续 5 秒 钟 的 视觉 刺激 ， 由 与 任务 相关 的 分 量 
拾取 。 方 框 中 信号 的 时 间 进 程 约 为 一 分 钟 ， 任 务 重复 了 四 次 ， 如 图 (a) 所 示 。 其 他 分 量 则 采集 
了 诸如 头 部 运动 之 类 的 噪声 。 图 片 来 源 : M.J. McKeown, T.-P. Jung, S. Makeig, G. D. 


Brown, S. S. Kindermann, T.-W. Lee, and T. J. Sejnowski, “Spatially Independent 
Activity Patterns in Functional MRI Data during the Stroop Color-Naming Task, " 
Proceedings of the National Academy of Sciences of the United States of America95, 
no. 3 (1998): 806,figure 1. 


因为 独立 分 量 分 析 是 无 监督 的 ， 它 可 以 揭示 能 够 协同 工作 的 大 脑 区 
域 网 络 ， 并 能 够 扩充 试图 将 区 域 中 的 活动 与 感官 刺激 或 运动 反应 联系 起 
来 的 监督 技术 。 例 如 ， 独 立 分 量 分 析 已 被 用 于 揭示 来 自 受 试 者 的 fMRI 
记录 中 的 多 个 静 息 状 态 ， 这 些 受 试 者 只 是 被 要 求 在 扫描 仪 中 保持 不 
动 。 卫 外 我 们 仍然 不 了 解 这 些 静 息 状态 意味 着 什么 ， 但 是 它们 可 以 代表 
对 大 脑 活动 负责 的 一 部 分 大 脑 区 域 的 组 合 ， 例 如 我 们 在 做 白 日 梦 ， 被 一 
件 烦 心事 困扰 ， 或 是 正在 计划 晚餐 吃 什么 的 时 候 。 


最 大 独立 性 原则 与 稀 足 编码 原则 有 关 。 尺 管 独立 分 量 分 析 揭 示 了 许 
多 独立 的 分 量 ， 但 只 需要 其 中 的 一 小 部 分 就 能 重建 自然 图 像 中 指定 的 图 
块 。 这 个 原理 也 适用 于 视 沉 皮层 ， 视 觉 皮 层 的 细胞 数量 比 视 网 膜 的 输入 
细胞 多 100 倍 。 我 们 的 每 个 视网膜 都 有 100 万 个 神经 节 细 胞 ， 在 初级 视觉 
皮层 中 有 1 亿 个 神经 元 一 一 这 是 皮层 视觉 层级 中 的 第 一 层 。 视 网 膜 中 视 
沉 信 号 的 紧 竣 编码 ， 在 皮层 中 被 扩展 为 高 度 分 布 且 高 度 稀 玖 的 新 编码 。 
将 信息 扩展 到 更 高 维度 空间 的 方法 也 被 应 用 到 其 他 的 编码 方案 中 ， 其 中 
包括 在 听觉 皮层 和 噢 觉 度 层 中 发 现 的 编 色 。 一 类 被 称 为 “压缩 感知 算 
法 ”(compressed sensing algorithms) 的 新 算法 将 稀疏 性 原理 进行 了 泛 化 
处 理 ， 用 来 提高 存储 和 分 析 复 杂 数 据 集 的 效率 。 呈 3 引 















































什么 在 操控 我 们 的 言行 





独立 分 量 分 析 的 故事 说 明了 技术 在 科学 和 工程 领域 取得 新 发 现 中 的 
重要 性 。 我 们 通常 将 技术 看 作 测 量 设备 ， 比 如 显微镜 和 放大 器 。 但 算法 
也 是 技术 ， 它 们 能 够 利用 旧 仪器 获得 的 数据 得 出 新 的 发 现 。 脑 电 图 技术 
已 经 存在 了 将 近 100 年 ， 但 是 如 果 没 有 独立 分 量 分 析 ， 就 无 法 确定 潜在 








的 大 脑 信 息 源 ， 大 脑 本 身 就 是 一 个 环 坏 相 扣 的 算法 体系 ， 如 果 大 脑 的 菜 
些 部 分 发 现 了 实施 独立 分 量 分 析 的 方法 ， 我 并 不 会 对 此 感到 惊讶 。 上 和 


20 世 纪 90 年 代 ， 在 为 神经 元 网 络 开 发 新 的 学 习 算 法 的 过 程 中 ， 也 诞 
生 了 许多 其 他 的 发 现 ， 其 中 很 多 《如 独立 分 量 分 析 ) 现在 都 成 了 机 器 学 
习 中 的 数学 工具 。 这 些 算 法 被 舱 入 许多 常用 的 设备 中 ， 不 过 没有 一 个 标 
明了 “内 含 神经 网 络 ”"。 拿 耳机 或 手机 来 举 个 例子 。Te-Won Lee 和 Tzyy- 
Ping Jung 曾 经 是 我 实验 室 的 博士 后 研究 员 ， 他 们 后 来 创立 了 一 家 名 
为 “SoftMax” 的 公司 ， 在 之 有 两 个 麦克 风 的 更 牙 耳 机 中 应 用 ICA 来 消除 背 
景 噪声 。 这 样 的 设计 能 够 让 戴 耳 机 的 人 在 嘲 杂 的 餐厅 或 体育 完事 中 听 到 
别人 说 话 。2007 年 ，SoftMax 被 蜗 通 收购 (高 通 为 许多 品牌 的 手机 设计 
Fy) 。 而 如 今 ， 类 似 独立 分 量 分析 的 解决 方案 也 已 藤 入 10 亿 部 手机 
中 。 如 果 你 能 从 运行 独立 分 量 分 析 的 每 部 手机 上 分 到 一 分 钱 ， 那 你 现在 
LET TH BI. 
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类 ， 我 们 的 体内 有 许多 网 络 ， 信 息 从 一 个 网 络 层 到 另 一 个 网 络 层 ， 从 分 
子 到 突 触 ， 到 神经 元 ， 到 神经 群 ， 直 到 形成 决策 ， 所 有 这 些 都 可 以 用 物 
理学 和 生物 化 学 的 法 则 来 解释 《〈 见 图 4-4) 。 但 我 们 都 有 这 样 的 感受 ， 
是 我 们 自己， 而 非 物 理 或 生物 化 学 反应 ， 在 操控 我 们 的 一 言 一 行 。 我 们 
的 大 脑 神经 群 中 出 现 的 内 部 活动 如 何 引 导 我 们 做 出 决定 ， 例 如 阅读 这 本 
书 或 者 打 网 球 ， 一 直 是 一 个 谜 。 这 些 远 远 低 于 我 们 意识 水 平 的 决定 ， 在 
某 种 程度 上 是 由 神经 元 通过 基于 分 子 机 制 的 经 验 形成 的 突 触 相互 作用 形 
成 的 。 但 从 我 们 人 类 的 视角 来 看 ， 是 我 们 的 决定 导致 了 所 有 这 些 事件 在 
我 们 的 脑 中 发 生 : 内 省 行为 告诉 我 们 ， 因 果 关 系 中 的 因 和 果 ， 似 乎 与 物 
理 和 生物 化 学 领域 中 的 因 和 果 相反 。 如 何 调和 这 两 个 观点 ， 是 一 个 深刻 
的 科学 问题 。 呈 3 
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霍 普 菲尔德 网 络 和 玻 尔 兹 曼 机 


在 20 世 纪 80 年 代 ， 尚 在 罗切斯特 大 学 的 计算 机 科学 家 杰 罗 姆 . 费 尔 
f= (Jerome Feldman) 采用 了 联结 主义 〈connectionist) 网 络 的 方式 来 
研究 人 工 智 能 。 杰 有 罗 姆 几乎 没 说 错过 什么 话 ， 他 曾经 指出 ， 人 工 智 能 中 
使 用 的 算法 在 运行 了 数 十 亿 个 步骤 之 后 ， 却 常常 得 不 到 一 个 正确 的 结 
论 ， 而 大 脑 只 需要 经 历 大 约 100 个 步 又 ， 通 常 束 会 得 出 一 个 正确 的 结 
论 。 岂 这 个 “100 步 法 则 ”当时 在 人 工 智能 研究 人 员 中 并 不 像 现在 那样 受 
欢迎 ， 但 少数 人 ， 其 中 最 著名 的 是 卡 内 基 - 梅 隆 大 学 的 艾 伦 : 纽 维尔 ， 的 
确 已 经 开始 把 它 作 为 一 种 约束 。 


有 一 次 我 被 困 在 了 纽约 州 的 罗切斯特 机 场 ， 术 罗 姆 好 心 留 咎 了 我 一 
晚 。 那 天 ， 我 参观 完 位 于 斯 元 内 殉 塔 迪 的 通用 电气 研究 实验 室 ， 准 备 返 
回 巴尔 的 摩 ， 在 回去 的 飞机 上 ， 听 到 飞行 员 通 知 我 们 罗切斯特 的 天 气 状 
况 。 我 这 才 发 现 坐 错 了 航班 。 落 地 后 ， 我 预订 了 飞 往 巴尔 的 摩 的 最 早 航 
班 ， 但 也 要 等 到 第 二 天 了 。 我 碰巧 遇见 了 杰 罗 姆 ， 他 刚 参 加 完 在 华盛顿 
特区 举办 的 一 次 委员 会 会 议 ， 正 准备 回 和 家。 他 很 大 方 地 邀请 我 去 他 家 休 
恩 一 个 晚上 。 杰 罗 姆 后 来 去 了 加 州 大 学 伯克利 分 校 ， 但 每 次 我 被 困 机 场 
时 ， 都 会 禁不住 想起 他 。 


杰 罗 姆 区 分 了 “ 逮 遇 ”和 “整洁 ?的 联结 主义 模型 。 遵 遇 模 型 跟 杰 弗 里 . 
辛 顿 和 我 一 起 研究 过 的 模型 十 分 相似 ， 在 网 络 的 许多 单元 中 分 布 了 对 对 
象 和 概念 的 表征 。 而 杰 罗 姆 所 笃信 的 整洁 模型 ， 提 供 了 对 对 象 和 概念 严 
谨 的 计算 表征 ， 每 个 单元 上 只 有 一 个 标签 。 在 更 广泛 的 背景 下 ， 送 遇 科 
学 的 模型 使 用 近似 方法 来 获得 定性 的 答案 ， 而 整洁 科学 的 模型 致力 于 找 
到 问题 的 确切 解决 方案 。 事 实 上 ， 人 工 智 能 要 取得 进展 ， 需 要 同时 应 用 




















ERE. lg onu NE, BRAR- IZE 
给 出 一 个 更 “整洁 ”的 解释 ， 最 终 努 力 产 生 了 回报 : 杰 弗 里 和 我 后 来 都 因 
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想 要 获得 物理 学 博士 学 位 ， 你 必须 解决 一 个 问题 。 好 的 物理 学 家 应 
该 有 能 力 解决 任何 问题 ， 但 伟大 的 物理 学 家 知道 要 解决 什么 样 的 问题 。 
约翰 : 霍 普 菲尔德 就 是 一 位 伟大 的 物理 学 家 。 在 凝聚 态 物 理学 领域 获得 
了 杰出 的 成 就 之 后 ， 他 的 兴趣 转 同 了 生物 学 ， 特 别 是 关于 “分 子 校正 ”的 
问题 。DNA〔 脱 氧 核糖 核酸 〉 在 细胞 分 裂 过 程 中 被 复制 时 ， 错 误 不 可 避 
免 ， 必 须 纠 正 这 些 错 误 才 能 保证 子 细胞 遗传 信息 的 准确 度 。 霍 普 菲 尔 德 
想 出 了 一 个 聪明 的 办 法 ， 并 解释 了 采用 这 个 方法 纠 错 的 过 程 是 怎么 实现 
的 ， 尽 管 他 提出 的 这 种 方法 需要 消耗 能 量 ， 但 随后 的 实验 表明 ， 他 是 正 
确 的 。 在 生物 学 研究 领域 ， 做 出 任何 正确 的 解释 都 是 一 项 了 不 起 的 成 
就 。 


稚 普 菲尔德 是 我 在 普林斯顿 大 学 读 博 士 期 间 的 导师 ， 那 时 他 刚 对 神 
经 科学 产生 兴趣 〈 见 图 7-1) 。 随 着 这 种 兴趣 变 得 日 葵 浓 厚 ， 他 开始 兴 
致 动 动 地 给 我 讲述 ， 他 从 波士顿 神经 科学 研究 计划 (Neuroscience 
Research Program, NRP) 会 议 上 那些 神经 科学 研究 专家 的 演讲 里 所 学 
到 的 东西 。 我 发 现在 NPR 会 议 上 发 布 的 一 些小 型 研讨 会 会 议 文章 非常 有 
价值 ， 让 我 了 解 了 当时 人 们 正在 研究 什么 问题 ， 以 及 产生 了 哪些 想法 。 
我 现在 还 保留 痢 一 份 由 传奇 神经 学 家 西 奥 多 . 霍 姆 斯 : 布 洛 元 (Theodore 
Homes Bullock) 整理 的 关于 神经 编码 的 研讨 会 会 议 文献 。 西 奥 多 后 来 
成 了 我 在 加 州 大 学 圣迭戈 分 校 的 同事 。 西 奥 多 和 艾 德里 安 : 霍 里 奇 
(Adrian Horridge) 合 著 的 关于 无 疹 椎 动物 神经 系统 的 书 堪 称 经 典 。[3 
我 和 西 奥 多 在 模拟 珊瑚 礁 集体 行为 的 项 目 中 有 过 合作 ， 并 且 我 很 荣 季 地 
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与 前 层 单元 建立 了 反馈 连接 ， 并 与 同 层 单元 间 存 在 循环 连接 的 神经 
网 络 ， 要 比 仅 具有 前 馈 连 接 的 神经 网 络 复杂 得 多 。 包 含 具 有 正 〈 兴 奋 ) 
权重 和 负 〈 抑 制 ) 权重 的 任意 连接 单元 的 通用 网 络 对 学 界 提出 了 一 个 数 
学 难题 。 虽 然 芝加哥 大 学 的 杰克 . 考 恩 Jack Cowan) 和 波士顿 大 学 的 其 
蒂 芬 - 格 罗 斯 伯 格 (Stephen Grossberg) 在 20 世 纪 70 年 代 后 期 ， 通 过 证 明 
这 样 的 网 络 能 够 重 现 视觉 错觉 名 和 幻觉 [6] ， 在 该 领域 取得 了 一 些 进 
展 ， 但 是 工程 师 发 现 这 种 网 络 并 不 能 解决 复杂 的 计算 问题 。 




















& 
图 7-1 约翰 。 霍 普 菲 尔 德 在 马萨诸塞 州 伍 座 霍 尔 的 岸 边 正 埋头 解决 菜 个 问题 《照片 拍摄 于 1986 
年 前 后 ) 。 霍 普 菲 尔 德 在 20 世 纪 80 年 代 设 计 了 一 个 以 他 自己 名 字 命名 的 神经 网 络 ， 开 启 了 深度 
学 习 研 究 的 大 门 ， 这 一 设计 对 神经 网 络 研 究 产 生 了 开创 性 的 影响 。 图 片 来 源 : 2938 -CE GER 


德 。 
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内 容 可 寻 址 存储 器 


1983 年 的 夏天 ， 闻 顿 、 霍 普 菲 尔 和 [我 参加 了 杰 罗 姆 : 费 尔 德 曼 在 
罗切斯特 大 学 组 织 的 一 场 讨 论 会 。 霍 普 菲尔德 告诉 我 们 ， := 种 
强 交 互 网 络 的 收敛 问题 。 他 证 明了 一 种 独特 的 非 线 性 网 络 模型 ， 即 现在 
的 “ 霍 普 菲尔德 网 络 ”， 能 确保 收敛 到 一 种 叫 " 吸 引子 ”Cattractor) 的 稳定 
状态 ( 见 图 7-2， 方 框 7.1〉 二 (高 度 非 线性 网 络 很 容易 发 生 振荡 ， 或 表 
现 出 更 多 的 混沌 行为 ) 。 此 外 ， oon 把 吸引 子 
状态 做 成 信息 内 容 。 如 此 一 来 ， 霍 普 菲 尔 德 网 络 就 可 以 被 用 来 实现 一 
种 “内 容 可 寻 址 存储 ”(content-addressable memory) 。 存 储 的 信息 可 以 

只 用 信息 内 容 的 一 部 分 作为 提取 输入 ， 让 神经 网 络 完成 信息 填充 。 这 让 
人 联想 起 了 人 的 记忆 行为 ， 如 果 我 们 看 到 某 个 熟人 的 脸 ， 束 能 想起 那个 
人 的 名 字 和 先前 与 之 交谈 过 的 内 容 。 
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17-2 霍 普 菲尔德 网 络 的 能 量 场景 图 。 (4A) 网 络 的 状态 可 以 被 看 作 是 能 量 表 面 上 的 一 个 

点 。【〔 右 图 ) 每 次 更 新 可 以 将 状态 移动 到 其 中 一 个 局 部 能 量 最 小 值 ， 叫 作 “ 吸 引子 状态 ”。 图 
片 来 源 : A. Krogh, J. Hertz, and R.G. Palmer, Introduction to the Theory of Neural 
ComputationRedwood City CA: Addison-Wesley, 1991, left:figure 2.6; right: figure 
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霍 普 菲 尔 德 网 络 的 重大 突破 性 在 于 ， 它 能 在 数学 上 保证 收敛 。 研 究 
人 员 曾 认为 要 分 析 高 度 非 线 性 网 络 的 一 般 情 况 是 不 可 能 的 。 当 网 络 中 的 
所 有 单元 被 同时 更 新 的 时 候 ， 所 引发 的 动态 情况 非常 复杂 ， 没 有 办 法 保 
证 收敛 。 芭 | 但 是 霍 普 菲 尔 德 网 络 展示 出 ， 当 网 络 中 单元 的 更 新 是 顺序 


进行 的 时 候 ， 一 种 单元 组 彼此 双 回 连接 并 且 权 重 相同 的 特殊 对 称 网 络 ， 
是 可 解 ， 并 且 最 终 是 能 够 收敛 的 。 


越 来 越 多 的 证 据 表 明 ， 海 马 体 〈 保 存 关 于 特殊 事件 和 独特 对 象 长 期 
记忆 的 大 脑 关键 区 域 ) 中 的 神经 网 络 存 在 像 霍 普 菲尔德 网 络 中 的 那 种 吸 
引子 状态 。 节 虽然 霍 普 菲 尔 德 模型 非常 抽象 ， 但 它 的 本 质 行为 和 在 海 
马 体 上 观察 到 的 行为 十 分 相似 。20 世 纪 80 年 代 ， 许 多 物理 学 家 都 曾 利用 
霍 普 菲尔德 网 络 实现 了 由 物理 学 到 神经 科学 的 跨越 。 使 用 理论 物理 的 复 
杂工 具 来 分 析 神 经 网 络 和 学 习 算 法 的 过 程 中 ， 诞 生 了 很 多 惊人 的 发 现 。 
物理 、 计 算 和 学 习 在 神经 科学 理论 领域 深刻 地 联系 在 一 起 ， 这 一 结合 成 
功 地 实现 了 对 大 脑 功能 的 诠释 。 

约翰 : 霍 普 菲尔德 和 当时 在 贝尔 实验 室 的 大 卫 : 汤 元 (David 
Tank) ， 随 后 又 展示 了 一 种 霍 普 菲尔德 网 络 的 变 体 ， 其 中 的 单元 可 以 拥 
有 0 到 1 之 间 的 连续 值 ， 呈 册 能 够 很 好 地 解决 优化 问题 ， 例 如 “旅行 商 问 
题 ”(traveling salesman problem) ， 该 问题 则 在 寻找 能 够 访问 多 个 城市 
的 最 短路 径 ， 每 个 城市 仅 访问 一 次 。 呈 这 是 一 个 计算 机 科学 领域 众 所 
周知 的 难题 。 网 络 的 能 量 函 数 包 含 了 路 径 的 长 度 ， 限 制 是 每 个 城市 仅 能 
访问 一 次 。 经 过 初始 状态 ， 霍 普 菲 尔 德 和 汤 克 的 网 络 能 最 终 收敛 到 一 个 
最 小 能 量 状态 ， 表 明 找 到 了 一 条 较 好 的 路 径 ， 虽 然 不 一 定 是 最 佳 路 径 。 














局 部 最 小 值 与 全 局 最 小 值 


达 纳 : 巴 拉 德 (Dana Ballard) 1E19824E 5j yi BFE Sb 45 BH 
(Christopher Brown) 一 起 撰写 了 一 本 关于 计算 机 视觉 的 经 典 著 
作 ，LH3 他 也 参加 了 1983 年 的 研讨 会 。 辛 顿 和 我 当时 正在 与 巴 拉 德 一 起 
为 《自然 》 和 杂志 撰写 一 篇 关于 图 像 分 析 新 方法 的 综述 。 了 3 该 文章 的 核 
心 想法 是 ， 用 网 络 模 型 中 的 节点 表示 图 像 中 的 特征 ， 网 络 中 的 连接 实现 
了 特征 间 的 约束 条 件 ， 互 相 兼 容 的 节点 具有 积极 的 相互 作用 ， 而 不 兼容 








的 节点 间 具 有 消极 的 相互 作用 。 在 视觉 中 ， 必 须 找到 满足 所 有 约束 条 件 
的 所 有 特征 的 和 谐 表 达 。 

霍 普 菲尔德 网 络 能 够 解决 这 种 约束 满足 问题 吗 ? 能 量 函 数 可 以 用 来 
衡量 网 络 满足 所 有 约束 的 程度 〈 见 方 框 7.1) 。 视 觉 问题 需要 一 个 最 佳 
解决 方案 ， 一 个 全 局 能 量 最 小 值 ， 但 是 霍 普 菲尔德 网 络 的 工作 原理 决定 
了 它 仅 能 提供 局 部 最 小 值 。《 科 学 》 杂 志 上 的 一 篇 文章 让 我 深 受 启发 ， 
其 作者 斯 科 特 : 柯 克 帕 特 里 克 〈Scott Kirkpatrick) 当时 在 位 于 纽约 约克 
SUC (Yorktown Heights) 的 IBM 托 马 斯 : 沃 森 研 究 中 心 (Thomas J. 
Watson Research Center) 工作 。 吕 和 纪 柯 克 帕 特 里 克 使 用 了 一 种 叫 作 * 模 拟 
退火 ”(simulated annealing) 的 算法 来 解决 局 部 最 小 值 问 题 。 假 设 你 想 
把 一 扒 电 子 元 件 装 到 两 块 电路 板 上 ， 怎 么 放置 这 些 元 件 可 以 使 连接 元 件 
的 接线 数量 最 少 呢 ? 

较 差 的 解决 方案 就 是 ， 先 随机 安放 元 件 ， 然 后 每 次 移动 一 个 元 件 ， 
直到 找到 用 线 最 少 的 排 布 方案 。 因 为 当 移动 任何 一 个 元 件 都 无 法 减少 用 
线 时 ， 很 容易 陷入 局 部 最 小 值 的 陷阱 。 逃 出 这 个 陷阱 的 一 种 方式 就 是 ， 
允许 随机 跳 到 一 种 用 线 更 长 的 放置 方式 。 这 种 跳跃 的 概率 ， 开 始 时 会 很 
大 ， 随 后 慢 慢 减 小 ， 直 至 变 成 零 。 如 果 这 种 概率 减 小 的 速度 足够 慢 ， 元 
件 的 最 终 排 布 方式 会 达到 接线 的 全 局 最 小 值 。 在 冶金 业 ， 这 种 做 法 叫 作 
退火 。 将 金属 加 热 并 慢 慢 冷却 ， 在 这 一 过 程 中 会 形成 缺陷 最 小 的 较 大 的 
唱 体 结构 ， 这 些 缺 陷 会 使 金属 过 脆 ， 或 出 现 裂纹 。 
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传递 输出 。 输 入 标记 为 六 ， 输 出 标记 为 。 连 接 的 强度 ， 或 者 说 单元 
之 间 的 权重 是 对 称 的 : Wij=Wjic 在 每 个 步 又 中 ; 其 中 一 个 单元 被 更 
新 为 输入 值 的 总 和 ， 并 和 一 个 国 值 进行 比较 : 如 有 果 输 入 之 和 大 于 国 
值 ， 输 出 就 是 1， 否 则 输出 就 是 0。 霍 普 菲 尔 德 展 示 了 这 种 网 络 存在 
一 个 能 量 函 数 ， 它 不 会 随 着 网 络 中 单个 单元 的 逐次 更 新 而 增长 : 

E-Y Wij Xi Xj 


最 终 ， 霍 普 菲 尔 德 网 络 会 达到 “吸引 子 状 态 ”， 即 所 有 单元 值 不 
再 变化 ， 能 量 方程 达到 局 部 最 小 值 。 这 种 状态 等 同 于 存储 好 的 记 
忆 ， 可 以 通过 部 分 存储 好 的 状态 来 初始 化 网 络 ， 实 现 对 完整 记忆 的 
恢复 。 这 了 就 是 翟 普 菲尔德 网 络 实现 内 容 取 址 记忆 的 方法 。 所 存储 回 
量 的 权重 可 通过 赫 布 突 触 可 塑性 (Hebbian synaptic plasticity) 得 
到 : 


Awij=axi Xj 

















Awij 表 示 权 重 的 变化 ，a 表 示 学 习 速 率 ， i 表示 存储 的 同 量 。 


该 图 由 戴尔 : 希 斯 (Dale Heath) 绘制 。 





在 霍 普 菲尔德 网 络 中 ， 模 拟 退 火 相 当 于 对 更 新 进行 “加 热 ”， 这 样 能 
量 就 能 在 能 量 表 面 自由 上 下 。 因 为 单元 在 高 温 下 可 以 随机 反 转 ， 如 果 温 
度 逐 渐 降 低 ， 霍 普 菲 尔 德 网 络 很 有 可 能 在 温度 为 零 时 收敛 到 能 量 最 低 状 
态 。 在 实际 操作 中 ， 模 拟 会 在 常温 条 件 下 让 网 络 达 到 平衡 状态 ， 这 样 网 
络 驶 可 以 访问 周围 的 知 干 状态， 并且 在 一 个 更 广阔 的 范围 内 搜寻 可 能 的 
答案 。 

例如 ， 图 7-3 中 去 有 影 的 图 案 是 存在 争议 的 。 这 取决 于 你 关注 的 是 哪 
个 部 分 ， 你 可 能 会 看 到 一 个 花瓶 或 两 张 侧 脸 ， 但 不 会 同时 看 到 这 两 种 图 
案 。 问 题 的 关键 在 于 ， 你 将 哪 部 分 看 成 图 形 ， 哪 部 分 看 成 背景 。 我 们 设 
计 了 一 个 玻 尔 兹 曼 机 网 络 来 模仿 这 个 基于 图 形 一 背景 的 决定 figure- 
ground decision) ， 员 ?用 一 些 单元 代表 被 关注 的 图 形 ， 其 他 单元 代表 
图 形 的 边缘 。 我 们 已 经 知道 ， 视 觉 皮 层 中 存在 由 边缘 激活 的 简单 细胞 ， 
但 是 图 形 可 能 位 于 边缘 的 任意 一 侧 。 我 们 的 玻 尔 兹 曼 机 网 络 通过 两 组 边 
缘 单元 实现 了 图 形 选择 ， 每 组 单元 只 文 持 一 侧 的 图 形 。 这 类 神经 元 随后 
在 视觉 皮层 中 被 发 现 ， 被 称 为 “边界 归属 细胞 ”(border-ownerships 
cells) , H6] 


玻 尔 效 受 网 络 中 的 约束 可 以 通过 手动 设置 权重 来 实现 〈 图 7-4) 。 
在 图 形 单 元 之 间 存 在 兴奋 连接 ， 而 在 边缘 单元 之 间 存 在 着 抑制 连接 。 边 
缘 单元 与 它们 所 指 网 的 图 形 单元 之 间 存 在 兴奋 性 连接 ， 能 够 文 持 图 形 单 
元 ， 并 与 相 背 离 的 图 形 单元 间 形 成 抑制 性 连接 。 由 避 注 意 力 是 通过 对 一 
些 图 形 单位 产生 偶 倚 “bias) 而 实现 的 。 当 玻 尔 效 曼 网 络 对 单元 使 用 霍 



































普 菲 尔 德 更 新 规则 时 ， 它 会 落 入 局 部 能 量 最 小 值 ， 这 些 局 部 能 量 最 小 值 
在 本 地 图 块 中 一 致 ， 但 在 全 局 上 并 不 一 致 。 当 更 新 中 加 入 了 噪声 时 ， 玻 
尔 兹 曼 网 络 可 以 跳出 局 部 最 小 值 ， 并 且 通 过 缓慢 退火 降低 吧 声 温度 ， 这 
来 网 络 的 能 量 函 数 就 可 能 得 到 全 局 一 致 的 能 量 最 小 值 〈 见 图 一 

由 于 更 新 是 异步 和 独立 的 ， 因 此 网 络 可 以 由 具有 数 百 万 个 单元 并 
cu ND. 并 且 可 以 比 一 次 按 顺 序 执行 一 个 操作 的 数字 计 
算 机 更 快 地 收敛 到 解决 方案 中 。 
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图 7-3 模棱两可 的 图 形 一 背景 问题 。〈 左 图 ) 如 果 关 注 黑 色 图 形 ， 你 看 到 的 是 一 个 有 白色 背景 
的 花瓶 。 如 果 关 注 的 是 白色 背景 ， 那 你 会 看 到 两 张 互相 注视 的 脸 。 你 可 以 来 回 变 换 视 角 ， 但 是 
做 不 到 同时 看 到 两 种 图 案 。( 右 图 ) 图 形 一 背景 网 络 模型 。 两 种 单元 分 别 代表 了 物体 的 边缘 
(RA) ， 和 某 个 像素 是 否 属 于 图 形 或 者 背景 (CFR) 。 图 像 输 入 方向 为 从 下 到 上 ， 注 意 力 输 
入 方向 是 从 上 到 下 。 其 中 ， 当 某 个 区 域 应 该 被 当 作 图 形 而 进 行 填充 时 ， 注 意 力 就 是 针对 该 区 域 
所 产生 的 偏 倩 。 图 片 来 源 : P. K. Kienker, T. J. Sejnowski, G. E. Hinton, and L. 

E. Schumacher， “Separating Figure from Ground with a Parallel Network, ”Perception 
15 (1986): 197-216, left: figurel; right: figure 2. 
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(d) 


(ELA) 网 络 中 的 方形 单元 为 


(c) 


识 图 形 的 图 形 单 


RT 


边界 单元 ， 连 接 单元 的 正 负 属性 也 被 一 同 标 出 。 边 缘 单 元 可 以 指向 或 


图 7-4 正在 分 离 图 形 与 背景 的 玻 尔 效 曼 机 。 
Bi 


在 开局 和 关闭 状态 之 间 不 停 变 换 。 (b) 随 着 温度 下 降 ， 在 指向 内 部 的 边缘 单元 的 支持 下 ，C 内 
部 的 图 形 单元 开始 聚拢 ; 同时 ， 注 意 区 以 外 或 没有 边缘 输入 的 单位 开始 消失 。 (o) 当 温 度 为 零 
时 ， 注 意 区 的 图 案 被 填 满 。 (d) 如 果 注 意 区 移 向 外 围 ， 重 复 该 过 程 ， 则 外 部 区 域 会 被 填充 。 图 
片 来 源 : P. K. Kienker, T. J. Sejnowski, G. E. Hinton, and L. E. Schumacher, 
“Separating Figure from Ground with a Parallel Network, " Perception15 (1986) : 
197 - 216, below: figure 6; above: figure 3. 


那个 时 候 ， 我 已 经 在 哈佛 医学 院 的 斯 带 分 : 库 夫 勒 那里 完成 了 博士 
后 研究 ， 在 约翰 : 霍 普 金 斯 大 学 〈 位 于 巴尔 的 摩 市 ) 生物 物理 系 开 始 了 
我 的 第 一 份 工作 ; 杰 弗 里 : 辛 顿 在 卡 内 基 - 梅 隆 大 学 〈 位 于 匹 效 您 市 ) 计 
算 机 科学 系 担任 教 职 ， 在 那里 他 很 笠 运 地 得 到 了 艾 伦 : 纽 维尔 的 文 持 ， 
艾 伦 对 人 工 智能 的 新 方向 持 十 分 开放 的 态度 。 匹 效 堡 和 巴尔 的 摩 离 得 很 
近 ， 所 以 杰 弗 里 和 我 可 以 在 周末 见面 。 我 们 将 这 一 霍 普 菲尔德 网 络 的 新 
版 本 称 为 “ 玻 尔 北 曼 机 ”， 以 致敬 19 世 纪 的 物理 学 家 路 德 维 硕 : 玻 尔 效 曼 
(Ludwig Boltzmann) ， 他 是 统计 力学 的 创始 人 。 我 们 的 波动 性 神经 网 
络 模型 就 是 借助 统计 力学 的 工具 进行 分 析 的 ， 之 后 我 们 很 快 就 发 现 ， 该 
模型 也 是 一 个 强大 的 学 习 机 器 。 

在 恒定 的 “温度 ”下 ， 玻 尔 效 曼 机 会 达到 平衡 。 在 平衡 状态 下 会 发 生 
一 些 神奇 的 事情 : 多 层 神经 网 络 学 习 的 大 门将 被 打开 。 而 此 前 ， 每 个 人 
都 认为 它 的 存在 有 浆 无 利 。 有 一 天 ， 杰 弗 里 给 我 打 电 话 ， 说 他 刚刚 从 玻 
尔 兹 曼 机 衍生 出 一 个 简单 的 学 习 算 法 。 该 算法 的 目标 是 执行 从 输入 单元 
到 输出 单元 的 映射 。 但 与 感知 器 不 同 的 是 ， 玻 尔 兹 曼 机 在 输入 和 输出 层 
之 间 也 存在 一 些 单元 ， 我 们 称 之 为 “隐藏 单元 ”( 见 方 框 7.2〉 。 通 过 对 其 
呈现 输入 一 得 出 对 和 应 用 学 习 算 法 ， 玻 尔 北 受 网 络 学 会 了 实现 目标 映 
射 。 但 是 ， 其 目标 不 仅仅 是 要 记 住 输入 一 输出 对 ， 也 要 将 没有 被 用 于 训 
练 网 络 的 新 输入 正确 地 进行 分 类 。 此 外 ， 玻 尔 兹 曼 机 也 在 通过 其 持续 不 
斯 的 波动 状态 来 学 习 概率 分 布 一 一 对 于 一 个 给 定 的 输入 模式 ， 每 个 输出 
状态 的 访问 频率 如 何 一 一 这 束 使 其 具备 了 生成 性 : 学 习 之 后 ， 它 可 以 通 
过 钳制 每 个 输出 类 别 来 生成 新 的 输入 样本 。 
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令 人 惊讶 的 是 ， 玻 尔 效 曼 机 学 习 算法 在 神经 科学 领域 有 着 悠 久 的 历 
史 ， 可 以 退 溯 到 心理 学 家 唐纳德 赫 布 Donald O. Hebb) 博士 ， 他 在 
《行为 的 组 织 》 一 书 中 假定 ， 知 两 个 神经 元 同时 被 激发 ， 它 们 之 间 的 突 
触 连接 应 该 会 增强 : 
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和 在 霍 普 菲尔德 网 络 中 一 样 ， 玻 尔 效 曼 机 中 所 有 的 连接 都 是 对 
称 的 ， 并 且 其 中 的 二 进 制 单 元 i 的 状态 值 sj， 会 按照 上 图 中 的 Sigmoid 
函数 (sigmoid ^ function) 提供 的 一 个 概率 ， 逐 个 被 更 新 成 1 或 0。 
Sigmoid 函 数 的 输入 值 AE 通 过 温度 T 来 进行 比例 缩放 。 输 入 层 和 输出 





层 都 是 < 可见 的 ”， 也 就 是 说 它们 会 与 外 界 进行 交互 。“ 隐 藏 单元 ” 代 
表 了 能 够 影响 可 见 层 单元 的 带 有 内 部 自由 度 的 特征 。 玻 尔 兹 曼 机 学 
习 算法 有 两 个 阶段 ， 在 “清醒 ?阶段 ， 输 入 和 输出 会 被 钳制 
(clamped) 3]， 当 网 络 达到 平衡 状态 后 ， 每 对 单元 状态 值 之 间 的 
相关 系数 会 被 计算 出 来 ， 在 “睡眠 ”阶段 ， 输 入 和 输出 钳制 被 解除 ， 
每 对 单元 状态 值 之 间 的 相关 性 会 被 重新 计算 ， 其 中 的 权重 会 被 逐步 
更 新 : 
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让 我 们 假设 反射 活动 〈 或 “追踪 痕迹 ”) 的 持续 或 重复 ， 趋 向 
于 引起 持续 的 细胞 变化 来 增加 其 稳定 性 。 当 细胞 A 的 轴 突 接近 细胞 
B， 并 且 反 复 或 持续 地 参与 激发 细胞 B 时 ， 其 中 一 个 或 者 两 个 细胞 中 
都 会 发 生 某 种 生长 过 程 或 代谢 变化 ，A (作为 激发 B 的 细胞 之 一 ) 的 
HPA to, 1201 





这 可 能 是 整个 神经 科学 领域 中 最 有 名 的 预言 。 后 来 在 海马 体 中 发 现 
了 赫 布 突 触 可 塑性 (Hebbian Synaptic Plasticity) ， 海 马 体 是 大 脑 中 控制 
长 期 记忆 的 重要 组 成 部 分 。 当 一 个 海马 锥 体 细 胞 接收 强 输入 信号 ， 同 时 
该 神经 元 也 发 生 了 放电 反应 时 ， 突 触 的 连接 强度 就 会 增加 。 随 后 的 实验 
表明 ， 这 种 强化 是 基于 突 触 的 发 射 器 释放 与 受 体 神经 元 中 电压 升 高 的 结 
合 。 此 外 ， 这 种 结合 的 发 生 被 一 种 特殊 的 受 体 ， 即 NMDA (N- 甲 基 -D- 
天 冬 氨 酸 ) 谷 氨 酸 受 体 所 识别 。 它 触发 了 长 时 程 增强 (long-term 
potentiation， 简 称 LTP) ， 其 起 效 迅速 而 且 持续 时 间 长 ， 是 一 种 很 好 的 
长 期 记忆 基质 。 与 玻 尔 兹 曼 机 学 习 算 法 (见方 框 7.2) 十 分 相似 ， 突 触 
上 的 赫 布 可 塑性 是 由 输入 和 输出 之 间 的 一 致 性 决定 的 。 

更 令 人 惊讶 的 是 ， 玻 尔 兹 曼 机 需要 一 定 的 “ 睡 虑 ”才能 学 习 。 它 的 学 
习 算 法 有 两 个 阶段 。 在 第 一 阶段 ， 即 “清醒 ?阶段 ， 随 着 输入 和 输出 模式 
被 钳制 到 期 望 的 映射 ， 网 络 中 的 单元 被 多 次 更 新 以 达到 平衡 ， 每 对 单元 











都 为 1 的 次 数 所 占 的 百分比 会 被 记录 下 来 。 在 第 二 阶段 ， 即 “睡眠 ” 阶 
段 ， 输 入 和 输出 单元 被 释放 ， 每 对 单元 在 自由 运行 状态 中 都 为 1 的 次 数 
百分比 也 被 记录 下 来 。 然 后 ， 每 个 连接 强度 按照 清醒 和 睡眠 阶段 一 致 率 
之 间 的 差异 ， 按 比例 进行 更 新 《见方 框 7.2) 。 睡 眠 阶段 的 计算 是 为 了 
确定 钳制 的 相关 性 中 哪个 部 分 是 由 外 部 原因 造成 的 。 在 不 去 除 内 部 产生 
的 相关 性 的 情况 下 ， 该 网 络 会 加 强 内 部 活动 模式 ， 并 学 习 忽略 外 部 的 影 
响 ， 这 是 二 联 性 精神 病 Cfolie à deux) 上 2 的 网 络 版 本 。 有 趣 的 是 ， 极 
度 的 睡眠 剥夺 会 导致 人 体 处 于 妄想 的 状态 ， 在 没有 窗户 和 恒定 照明 的 医 
院 重 症 监 护 病 房 中 ， 这 样 的 问题 并 不 罕见 。 精 神 分 裂 症 患者 通常 患 有 有 睡 
眠 障碍 ， 可 能 导致 他 们 患 上 妄想 症 。 这 使 我 们 确信 ， 我 们 正 沿 着 正确 的 
方向 理解 大 脑 的 工作 原理 。 








学 习 识 别 镜像 对 称 


玻 尔 效 曼 机 可 以 解决 ， 但 感知 器 却 不 能 解决 的 一 个 问题 ， 就 是 如 何 
学 习 镜 像 对 称 。 蕊 ?人 体 是 沿 着 一 个 垂直 的 轴 两 边 对 称 的 。 我 们 可 以 用 
这 个 对 称 轴 生成 大 量 随机 图 案 ， 如 图 7-5 所 示 ， 也 可 以 采用 水 平 轴 和 对 
角 轴 对 称 。 在 我 们 的 玻 尔 兹 曙 机 网 络 中 ， 按 照 10x10 排 布 的 耕 干 块 二 进 
制 输入 被 投影 到 16 个 隐藏 单元 中 ， 然 后 再 投影 到 3 个 输出 单元 ， 每 个 输 
出 单元 对 应 3 个 可 能 的 对 称 轴 中 的 一 个 。 在 接受 了 6000 个 对 称 输入 模式 
的 训练 后 ， 玻 尔 兹 曼 机 对 全 新 输入 的 对 称 轴 进 行 分 类 的 成 功率 为 90%。 
感知 圳 得 到 的 结果 不 会 比 随机 猜测 的 结果 好 ， 因 为 单一 的 输入 并 不 包含 
关于 模式 对 称 性 的 信息 ， 必 须 对 输入 对 之 间 的 相关 性 进行 考察 。 值 得 注 
意 的 是 ， 人 类 观察 者 看 到 的 输入 阵列 与 玻 尔 效 曼 机 所 看 到 的 并 不 一 致 ， 
因为 玻 尔 效 曼 机 的 每 个 隐藏 单元 都 从 整个 阵列 接收 输入 ， 并 不 遵循 任何 
特定 的 顺序 。 对 于 观 穴 者 来 次 ， 等 价 的 问题 是 要 随机 安排 阵列 中 输入 单 
元 的 位 置 ， 这 会 使 阵列 在 观察 者 看 来 是 随机 的 ， 即 使 其 中 存在 隐藏 的 对 
称 性 。 
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图 7-5 对 称 的 随机 图 案 。 每 个 10X10 的 阵列 都 存在 要 直 、 水 平 或 对 角 方向 上 的 镜像 对 称 。 网 络 
模型 的 目标 是 学 习 如 何在 没有 参与 网 络 模型 训 练 的 新 样本 中 依据 对 称 轴 进行 分 类 。 图 片 来 源 : 

T. J. Sejnowski, P. K. Kienker,and G. E. Hinton, “Learning Symmetry Groups with 
Hidden Units: Beyond the Perceptron, " Physica22D(1986): 260- 275, figure 4. 
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有 一 天 ， 我 正果 着 显示 器 ， 以 每 秒 两 次 的 速度 读 出 每 个 输入 模式 的 
对 称 性 。 当 时 我 在 约翰 . 霍 普 金 斯 大 学 心理 学 系 的 同事 尼 尔 . 科 恩 (Neal 
Cohen) 也 在 观察 这 个 屏幕 ， 但 他 却 不 能 区 分 这 些 对 称 性 ， 除 非 凌 近 了 
仔细 看 ， 他 对 我 的 这 项 本 事 感到 很 惊讶 。 与 玻 尔 兹 曼 机 的 学 习 过 程 类 

似 ， 观 察 了 显示 器 数 日 之 后 ， 我 的 视觉 系统 被 训练 到 可 以 自动 检测 对 称 
性 ， 而 不 需要 在 屏幕 上 四 处 对 比 查 看 。 尼 尔 和 我 设计 了 一 个 实验 ， 用 本 
科 生 作为 未 经 训练 的 考察 对 象 ， 观 察 他 们 在 这 一 任务 上 的 进展 。 尼 3 开 
始 时 ， 他 们 花 了 很 长 时 间 才 找 出 正确 的 对 称 性 ， 但 经 过 几 天 的 训练 以 














后 ， 他 们 的 速度 变 得 飞快 。 到 了 实验 后 期 ， 他 们 能 够 快速 、 轻 松 地 找到 
对 称 性 ， 甚 至 可 以 在 任务 过 程 中 与 我 们 进行 交谈 ， 得 到 的 答案 依然 准确 
无 误 。 这 是 非常 快速 的 感知 学 习 。 

我 在 约翰 . 堆 普 金 斯 大 学 教授 过 计算 生物 物理 学 ， 这 门 课程 吸引 了 
很 多 有 才华 的 学 生 和 研究 人 员 。 本 . 尤 哈 斯 (Ben Yuhas) 是 与 我 一 起 工 
作 的 电子 工程 系 的 研究 生 ， 他 在 写作 博士 论文 期 间 ， 训 练 了 一 个 神经 网 
络 来 阅读 唇 语 。 上 于 人 的 嘴巴 在 运动 过 程 中 包含 了 声音 的 信息 。 尤 哈 斯 
的 网 络 将 嘴 部 的 图 像 转换 为 每 个 时 间 点 上 产生 声音 的 相应 频谱 。 这 一 技 
术 可 以 辅助 处 理 有 噪声 的 声 谱 以 改善 语音 识别 。 他 的 研究 生 同 学 安 德 里 
TE zg (Andreas Andreou) 是 希腊 族 塞浦路斯 人 ， 他 当时 正在 
Barton Hall 大 楼 的 地 下 室 里 建造 模拟 超大 规模 集成 电路 芯片 〈 将 在 第 14 
章 中 进行 介绍 ) 。 在 20 世 纪 80 年 代 ， 许 多 院 系 的 教师 对 待 神经 网 络 的 态 
度 都 不 太 友善 ， 这 样 的 现象 在 很 多 机 构 中 都 非常 普遍 ， 但 这 并 不 能 阻止 
尤 哈 斯 或 安 德 里 欧 研究 的 脚步 。 事 实 上 ， 安 德里 欧 后 来 成 了 约翰 . 堆 普 
金 斯 大 学 的 正教 授 ， 并 合作 建立 了 约翰 . 堆 普 金 斯 大 学 语言 和 语音 处 理 
中 心 。 尤 哈 斯 则 组 建 了 一 个 咨询 团队 ， 为 政府 和 企业 客户 提供 数据 科学 
咨询 服务 。 














学 习 识别 手写 数字 


最 近 ， 杰 弗 里 : 辛 顿 和 他 在 多 伦 多 大 学 的 学 生 们 训练 了 一 个 带 有 三 
层 隐 藏 单元 的 玻 尔 兹 曼 机 ， 能 够 对 手写 邮政 编码 进行 非常 准确 的 分 类 
( 见 图 7-6) 。 了 5 由 于 玻 尔 兹 曼 网 络 具 有 反馈 和 前 馈 连接 ， 因 此 可 以 
反 向 运行 网 络 ， 钳 制 其 中 一 个 输出 单元 ， 并 生成 与 钳制 输出 单元 相对 应 
的 输入 模式 〈 见 图 7-7) 。 这 种 生成 性 网 络 能 捕获 训练 集 的 统计 结构 ， 
而 它们 生成 的 样本 也 会 继承 这 些 属性 。 就 好 像 这 些 网 络 进入 了 睡眠 状 
态 ， 网 络 最 高 层 的 活动 在 输入 层 产 生 了 梦境 一 般 的 状态 序列 。 
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图 7-6 用 于 手写 数字 识别 和 生成 样本 的 多 层 玻 尔 座 曙 机。 图 像 具 有 28X28 个 像素 ， 可 以 是 白色 
或 黑色 。 目 标 是 根据 10 个 输出 单位 (09) 对 数字 进行 分 类 。 图 片 来 源 : G E. 

Hinton, “Learning Multiple Layers of Representation, ” Trends in Cognitive 
Sciences11(2007) :428-434, figure 1. 
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图 7-7 由 经 过 训练 后 可 以 识别 手写 数字 的 多 层 玻 尔 座 曼 机 生成 的 输入 层 图 案 。 每 一 行 都 是 通过 
钳制 10 个 输出 单元 中 的 一 个 产生 的 〈 见 图 7-6) ， 并 且 输 入 层 在 上 述 示例 之 间 持 续 变 化 。 这 些 数 
字 都 没有 在 训练 集中 出 现 过 一 一 它们 是 被 训练 有 素 的 网 络 的 内 部 结构 “幻想 ”出 来 的 。 图 片 来 
Æ: G. E. Hinton, S. Osindero and Y. Teh, “ADeep Learning Algorithm for Deep 
Belief Nets" , Neural Computation18 (2006):1527-1554, figure 8. 





尽管 神经 网 络 在 物理 学 和 工程 学 中 的 兴起 十 分 迅速 ， 但 传统 的 认 知 
科学 家 却 迟 迟 不 能 接受 它 作为 理解 记忆 和 话 言 处 理 的 形式 体系 。 除 了 拉 
荷 亚 的 并 行 分 布 处 理 PDP) 研究 组 和 一 些 独 立 的 研究 者 ， 符 号 处 理 仍 
然 是 业界 的 主流 方法 。 杰 弗 里 和 我 在 1983 年 参加 了 认 知 科学 协会 
(Cognitive Science Society) 的 会 议 。 会 议 期 间 ， 研 究 短期 记忆 和 意象 
的 心理 学 家 泽 农 : 派 利 夏 恩 (Zenon Pylyshyn) 表示 出 了 对 玻 尔 兹 曼 机 的 
不 届 。 他 旨 讲 台 上 泼 了 一 杯 水 ， 并 大 声 喊 道 : “这 不 是 计算 ! ”而 其 他 人 
则 认为 整个 领域 仅仅 是 在 搞 统计 罢了 。 但 杰 罗 姆 :莱特 文 (Jerome 





Lettvin〉 却 表示 ， 他 真 的 非常 喜欢 我 们 正在 做 的 事情 。 羔 特 文 在 1959 年 
与 温 贝 托 : 蕊 托 拉 那 (Humberto Matourana) 、 沃 伦 : 麦 卡 洛 克 (Warren 
McCulloch) 和 沃尔特 : 匹 茨 (Walter Pitts) 一 起 撰写 了 经 典 的 论文 《 青 
蛙 的 眼睛 告诉 大 脑 什么 》 (What the Frog's Eye Tells the Frog's 
Brain) 。 上 [8 文中 给 出 了 青蛙 视网膜 中 的 虫 类 探测 器 神经 元 对 小 黑 点 的 
反应 最 为 强烈 的 证 据 ， 这 是 一 个 在 系统 神经 科学 领域 极 具 影响 力 的 想 

法 。 他 对 我 们 羽 踊 未 丰 的 神经 网 络 模型 的 支持 是 该 领域 早期 发 展 中 的 重 


要 一 环 。 











无 监督 学 习 和 皮层 友 育 


玻 尔 效 曼 机 既 可 以 用 来 进行 监督 学 习 ， 即 输入 和 输出 都 被 钳制 ， 也 
可 以 用 于 无 监督 学 习 ， 即 只 有 输入 被 钳制 。 杰 弗 里 . 辛 顿 使 用 无 监督 的 
版 本 一 次 一 层 地 搭建 出 了 一 个 深度 玻 尔 效 曼 机 。 世 马 从 连接 到 输入 单元 
的 一 层 隐 藏 单 元 开始 即 受 限 玻 尔 兹 曼 机 (restricted Boltzmann 
machine) ， 杰 弗 里 用 未 标记 的 数据 对 它 进行 训练 ， 这 些 数据 比 标记 数 
据 更 容易 获得 〈 互 联网 上 有 数 十 亿 未 标记 的 图 像 和 录音 ) ， 可 以 使 学 习 
进度 更 快 。 无 监督 学 习 的 第 一 步 是 从 数据 中 提取 所 有 数据 共有 的 统计 规 
律 ， 但 第 一 层 隐 藏 单元 只 能 提取 简单 的 、 用 感知 器 也 可 以 表现 的 特征 。 
下 一 步 是 将 权重 固定 到 第 一 层 ， 并 在 上 面 添加 第 二 层 单元 。 更 多 的 无 监 
督 玻 尔 兹 曼 学 习 产 生 了 更 复杂 的 一 组 特征 ， 可 以 不 断 重 复 这 一 过 程 来 创 
建 具有 多 层 深 度 的 网 络 。 

因为 上 层 的 单元 包含 更 多 非 线性 的 低层 特征 组 合 ， 使 得 它们 可 以 作 
为 一 个 整体 ， 从 具体 的 特征 中 抽象 出 更 普遍 的 特征 。 因 此 ， 在 上 层 进行 
的 分 类 变 得 容易 得 多 ， 只 需要 更 少 的 训练 样本 就 能 在 更 高 的 计算 水 平 达 
到 收敛 。 尽 管 如 何 描述 这 种 解决 方案 背后 的 数学 原理 依然 有 待 商 椎 ， 但 
已 经 有 新 的 几何 工具 开始 在 这 些 深度 网 络 中 思 露 头角 了 。 上 中 皮 层 似乎 












































也 是 逐 层 生长 的 。 在 视觉 系统 发 育 的 早期 阶段 ， 作 为 第 一 层 从 眼睛 接收 
输入 信和 号 的 神经 元 ， 初 级 视觉 皮层 中 的 神经 元 具有 很 高 的 可 塑性 ， 并 且 
很 容易 根据 视觉 输入 流 重 新 建立 连接 ， 这 种 连接 在 关键 时 期 结束 后 消失 
(这 部 分 在 第 5 章 已 经 讨论 过 ) 。 大 脑 后 部 的 视觉 区 域 和 其 他 感官 流 的 
层级 结构 最 先 发 育成 熟 ， 靠 近 大 脑 前 部 的 皮层 区 域 则 需要 更 长 的 时 间 。 
前 额 叶 皮层 ， 也 就 是 最 靠近 大 脑 前 问 的 部 分 ， 直 到 成 年 早期 才 可 能 完 

发 育成 熟 。 在 关键 期 ， 皮 层 区 域 的 连接 接受 神经 活动 影响 最 大 ， 这 些 层 
登 的 关键 时 期 导致 了 皮层 的 逐渐 发 育 。 加 州 大 学 圣迭戈 分 校 的 认 知 科学 
RAS Hs HORS (Jeffrey Elman) 和 伊 丽 莎 日 : 贝 次 (Elizabeth Bates) 
跟 其 他 同事 一 起 ， 针 对 皮层 的 逐渐 发 育 如 何 帮 助 儿 童 通 过 了 解 世 界 而 获 
得 新 能 力 ， 给 出 了 联结 主义 网 络 角度 的 解释 。 上 3 站 这 一 工作 为 解释 我 们 
漫长 的 童年 如 何 使 人 类 成 为 最 善于 学 习 的 物种 ， 开 辟 了 一 个 新 的 研究 方 
癌 ， 同 时 也 对 先前 围绕 某 些 与 生 俱 来 的 行为 产生 的 论调 提供 了 新 的 视 

Fl. 


ELJER (Steven Quartz) 曾经 是 我 实验 室 里 的 博士 后 研究 
员 ， 现 在 在 加 州 理工 学 院 做 教员 。 我 们 在 合作 发 表 的 《骗子 、 爱 人 人 和英 
WE) (Liars, Lovers and Heroes) 上 30 一 文中 曾经 写 道 ， 在 儿童 和 青少年 
时 期 的 大 脑 发 育 过 程 中 ， 经 验 可 以 深刻 地 影响 神经 元 的 基因 表达 ， 从 而 
改变 负责 行为 的 神经 回路 。 基 因 的 差异 性 以 及 环境 影响 之 间 的 交互 作 
用 ， 让 我 们 能 够 从 新 的 角度 认识 大 脑 发 育 的 复杂 性 。 这 一 活跃 的 研究 领 
域 超越 了 先天 与 后 天 的 辩论 ， 并 从 文化 生物 学 的 角度 对 其 进行 了 重新 定 
义 。 我 们 的 生物 特性 不 仅 促 成 了 人 类 文明 的 诞生 ， 也 反 过 来 被 人 类 文明 
影响 着 。 电 也 最 近 的 一 项 发 现 为 这 个 故事 续 写 了 新 篇 章 : 当 神 经 元 之 间 
突 触 的 形成 在 早期 发 育 过 程 中 迅速 增加 时 ， 神 经 元 内 部 的 DNA 在 诞生 后 
通过 一 种 甲 基 化 的 形式 进行 表 观 遗传 修饰 ， 这 种 甲 基 化 调节 基因 的 表达 
是 大 脑 所 独 有 的 。 忆 2 这 种 表 观 遗传 修饰 可 将 我 和 史 蒂 文 之 前 设想 的 经 
验 与 基因 之 间 建 立 起 某 种 连接 。 


到 了 20 世 纪 90 年 代 ， 和 神经 网 络 革 命 开 始 如 火 如 茶 地 进行 。 认 知 神经 









































科学 领域 正在 扩展 ， 计 算 机 变 得 越 来 越 快 ， 但 还 不 够 快 。 玻 尔 效 曼 机 的 
技术 性 能 非常 出 色 ， 但 是 要 模拟 起 来 却 慢 得 让 人 无 法 忍受 。 真 正 帮助 我 
们 取得 进展 的 是 一 种 更 快 的 学 习 算 法 ， 恰 恰 在 我 们 最 需要 和 它 的 时 候 ， 它 
与 我 们 不 期 而 遇 了 。 





[ 大 多 数 神经 元 可 以 做 出 决定 的 最 快速 度 大 约 为 10 宫 秒 ， 并 且 在 1 秒 内 做 出 决定 所 需要 的 
时 间 不 超过 100 时 步 。 

[2] 涉及 电磁 学 时 ， 法 拉 第 (Michael Faraday) 的 物理 学 是 遵 遇 型 的 ， 而 麦克 斯 韦 〈James 
Clerk Maxwell) 的 是 整洁 型 的 。 
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08 
有 反问 传播 算法 


加 州 大 学 圣 迭 葬 分 校 成立 于 1960 年 ， 现 已 发 展 成 为 生物 医学 研究 的 
主要 中 心 。 它 在 1986 年 成 立 了 世界 上 第 一 个 认 知 科学 系 。 凯 大 卫 . 鲁 姆 
哈 特 〈 见 图 8-1) 在 那 时 已 经 是 一 位 杰出 的 数学 家 和 认 知 心理 学 家 ， 他 
曾 在 以 符号 学 和 规则 为 基础 的 传统 人 工 智 能 领域 工作 过 ， 这 类 研究 在 20 
世纪 70 年 代 的 人 工 智能 研究 中 占 主 导 地 位 。1979 年 ， 我 在 加 州 大 学 圣 迭 
戈 分 校 由 杰 弗 里 : 辛 顿 组 织 的 研讨 会 上 第 一 次 见 到 了 大 卫 ， 当 时 他 开创 
了 一 种 新 的 探索 人 类 心理 的 方法 ， 他 和 人 詹姆斯 :麦克 莱 兰 称 之 为 “并 行 分 
布 式 处 理 ”〈 以 下 简称 PDP) 。 大 卫 总 是 能 对 问题 进行 深入 思考 ， 并 经 
常 提出 富有 洞察 力 的 评论 。 

玻 尔 兹 曼 机 学 习 算 法 可 以 学 习 如 何 解 决 需要 隐藏 单元 的 问题 ， 这 表 
明 ， 训 练 多 层 网 络 并 突破 感知 器 的 限制 是 可 行 的 ， 而 这 种 观点 与 马 文 : 
明 斯 基 和 西 摩尔 - 帕 普 特 以 及 该 领域 大 多 数 人 的 观点 相左 。 网 络 中 的 层 
数 或 任 一 给 定 层 内 的 连接 性 都 不 存在 任何 限制 。 但 是 有 一 个 问题 ， 达 到 
平衡 和 收集 统计 数据 来 进行 模拟 的 速度 变 得 越 来 越 慢 ， 大 型 网 络 需要 花 
费 更 长 的 时 间 才能 达到 平衡 。 
































图 8-1 1986 年 左右 在 加 州 大 学 圣 先世 分校 的 大 卫 。 重 姆 哈 特 ， 那 时 他 刚 出 版 了 两 卷 《 并 行 分 布 
式 处 理 》 (Parallel Distributed Processing) 。 鲁 姆 哈 特 在 多 层 网 络 模 型 学 习 算 法 的 技术 开 
发 领域 有 很 大 的 影响 力 ， 并 用 该 技术 来 帮助 我 们 理解 语言 和 思维 心理 。 图 片 来 源 : 大 卫 。 鲁 姆 
哈 特 。 


原则 上 ， 可 以 构建 有 具有 大 规模 并 行 体系 结构 的 计算 机 ， 该 计算 机 比 
具有 每 次 只 进行 一 次 更 新 的 传统 冯 : 诺 依 曼 体 系 结构 的 计算 机 快 得 多 。 
20 世 纪 80 年 代 的 数字 计算 机 每 秒 只 能 执行 100 万 次 操作 。 今 天 的 计算 机 
每 秒 能 够 执行 数 十 亿 次 操作 ， 并 且 通 过 将 数 千 个 内 核 连接 在 一 起 实现 的 
高 性 能 计算 机 ， 其 速度 比 以 前 快 上 百 万 倍 一 一 技术 性 能 得 到 了 空前 的 提 
[BJ o 

“曼哈顿 计划 ”是 美国 在 无 法 保证 原子 弹 能 够 研制 成 功 的 情况 下 做 出 
的 260 亿 美元 的 赌注 (以 2016 年 的 美元 价值 计算 ) ， 最 大 的 秘密 就 是 它 
的 确 有 成 功 的 苗头 。 当 使 用 玻 尔 效 曼 机 可 以 训练 多 层 网 络 的 秘密 被 公开 
后 ， 许 多 新 的 学 习 算法 如 雨后春笋 般 不 断 涌现 。 在 杰 弗 里 : 注 顿 和 我 研 
究 玻 尔 兹 曼 机 的 同时 ， 大 卫 : 鲁 姆 哈 特 开发 了 男 一 种 多 层 网 络 学 习 算 
法 ， 而 后 来 的 实践 证 明 ， 这 种 算法 的 效率 更 高 。[2 











算法 的 优化 


优化 (Optimization〉 是 机 器 学 习 中 一 个 关键 的 数学 概念 : 对 于 许 
多 问题 ， 可 以 找到 一 个 代价 函数 〈cost function) ， 而 问题 的 解决 方案 就 
是 代价 最 低 时 的 系统 状态 。 对 于 霍 普 菲尔德 网 络 来 说 ， 代 价 函 数 误 是 能 
量 ， 目 标 是 找到 使 网 络 能 量 最 小 化 的 状态 〈 如 第 6 章 所 述 ) 。 对 于 前 馈 
网 络 ， 用 于 学 习 的 利用 代价 函数 是 训练 集 输出 层 上 的 方才 之 和 。 “梯度 
FRE” Cgradient descent) 是 一 种 能 够 最 小 化 代价 函数 的 通用 过 程 ， 实 现 
方法 是 对 网 络 中 的 权重 沿 降低 代价 最 快 的 方向 进行 逐步 修改 。 二 如 果 
将 代价 函数 看 作 山 脉 ， 那 么 梯度 下 降 就 是 选择 向 山脚 下 滑动 的 最 快 路 


4, 
径 。 





鲁 姆 哈 特 发 现 了 如 何 通 过 被 称 为 “误差 的 反问 传播 ”(backprop- 
agation of errors) ， 或 简称 为 “ 反 传 ”(backprop〉 的 过 程 来 计算 网 络 中 
每 个 权重 的 梯度 《见方 框 8.1) 。 从 误差 已 知 的 输出 层 开 始 ， 可 以 很 容 
易 地 计算 出 指 癌 输出 单元 的 输入 权重 的 梯度 。 下 一 步 就 是 使 用 输出 层 梯 
度 来 计算 上 一 层 权 重 的 梯度 ， 以 此 类 推 ， 逐 层 回 到 输入 层 。 这 是 一 种 高 
效 计 算 误差 梯度 的 方法 。 

尽管 不 像 玻 尔 兹 曼 机 学 习 算法 那样 拥有 优雅 和 座 厚 的 物理 学 根源 ， 
但 是 反 辐 传播 效率 更 高 ， 并 且 推 动 该 领域 取得 了 快速 进展 。 由 大 卫 . 鲁 
姆 哈 特 、 杰 弗 里 : 注 顿 和 罗 纳 德 威 廉 姆 斯 (Ronald Williams) GWA 
典 的 反 向 传播 论文 于 1986 年 发 表 在 《自然 》 杂 志 上 ，[ 和 迄今 为 止 ， 该 
论文 已 经 在 其 他 研究 论文 中 被 引用 超过 4 万 次 。〔 世 界 上 发 表 的 所 有 论 
文 里 有 一 半 从 未 被 引用 过 ， 甚 至 连作 者 自己 都 不 引用 ; 一 篇 被 引用 了 
100 次 的 论文 都 会 在 领域 内 产生 巨大 反 啊 ， 所 以 很 显然 ， 这 篇 有 关 反 回 
传播 的 文章 是 一 颗 重 磅 炸弹 。) 











8.1 
VEZ c I Pe HE 





输入 层 隐藏 层 输出 层 
误差 反 向 传播 


反问 传播 网 络 的 输入 是 被 传播 的 前 僻 : 在 该 图 中 ， 左 侧 的 输入 
通过 连接 《箭头 ) 加 前 传播 到 隐藏 的 单元 层 ， 然 后 投影 到 输出 层 。 
输出 结果 与 训练 者 给 出 的 值 进行 比较 ， 差 值 被 用 来 更 新 连接 输出 单 
元 的 权重 ， 以 减少 误差 。 然 后 ， 根 据 每 个 权重 对 误差 页 献 的 多 少 ， 
通过 反 回 传播 误差 对 输入 单元 和 隐藏 层 之 间 的 权重 进行 更 新 。 利 用 
大 量 样本 进行 训练 ， 隐 苦 单 元 生成 了 可 区 分 不 同 输入 模式 的 选择 性 
特征 ， 这 样 一 来 它们 就 能 够 在 输出 层 中 对 不 同类 别 进行 区 分 。 这 一 
过 程 被 称 为 “表征 学 习 ” (representation learning) 。 




















语音 合成 的 突破 


1984 年 ， 我 在 普林斯顿 昕 了 研究 生 查 尔 斯 : 罗 森 伯 格 (Charles 


Rosenberg) 关于 玻 尔 兹 曼 机 的 演讲 。 虽 然 这 通常 是 我 演讲 的 题目 ， 但 
这 上 段 演讲 还 是 令 我 印象 深刻 。 但 尔 斯 问 他 是 否 可 以 去 我 的 实验 室 参 与 一 
个 夏季 研究 项 目 。 他 来 到 巴尔 的 靡 时 ， 我 们 已 经 转 同 了 反 同 传播 领域 ， 
这 让 我 们 有 可 能 考虑 现实 级 别 的 问题 ， 而 不 是 之 前 处 理 的 那 种 玩具 级 别 
的 问题 。 由 于 查尔斯 是 传奇 语言 专家 其 治 - 米 勒 (George Miller) 的 学 
生 ， 我 们 想 寻 找 一 个 恰到好处 的 语言 问题 ， 既 不 会 难 到 完全 找 不 到 头 
绪 ， 又 不 会 容易 到 存在 现成 的 解决 方法 。 语 言 学 是 一 个 具有 许多 分 文学 
科 的 广阔 领域 ， 例 如 : 音韵 学 (phonology) ， 涉 及 单词 的 发 音 ; 句法 
*É (syntax) ， 研 究 单词 在 一 个 句子 中 是 如 何 排列 的 ， 语 义学 
(semantics) ， 研 究 单词 和 句子 的 含义 ; 还 有 语 用 学 (pragmatics) , 
研究 语 境 是 如 何 影 响 语义 的 ， 等 等 。 我 们 决定 从 首 韵 学 开始 着 手 。 

瑞 语 是 一 种 特别 难 发 音 的 语言 ， 因 为 规则 很 复杂 ， 并 且 有 很 多 例外 
情况 。 例 如 ， 如 果 一 个 单词 的 最 后 一 个 辅音 后 面 跟着 一 个 不 发 音 的 字 
母 “e”， 则 元 首 大 多 数 情况 下 都 要 发 长 音 ， 如 “gave” 和 “brave”。 但 是 也 
有 例外 ， 例 如 “have”， 这 个 词 的 发 音 就 与 之 前 的 规则 相悖 。 我 在 图 书馆 
找到 了 一 本 书 ， 在 书 中 音韵 学 家 编 葡 了 这 些 规则 和 例外 ， 厚 达 数 百 页 。 
通常 例外 情况 中 也 会 有 规则 ， 而 有 时 例外 的 规则 中 还 存在 例外 情况 。 总 
之 ， 对 于 语言 学 家 来 说 ，“ 一 路 下 来 ”都 是 规则 。 里 更 让 人 抓 耳 挠 腮 的 
是 ， 同 样 一 个 单词 ， 并 不 是 每 个 人 的 发 首都 一 样 。 还 存在 很 多 方言 ， 每 
种 方言 也 都 有 自己 的 一 套 规则 。 


杰 弗 里 : 辛 顿 在 我 们 计划 的 早期 阶段 到 约翰 : 霍 普 金 斯 大 学 拜访 了 低 
尔 斯 和 我 ， 跟 我 们 说 他 认为 英语 发 首 太 难 掌 握 了 。 所 以 我 们 收 小 了 野 
心 ， 找 了 一 本 总 共有 大 约 100 个 字 的 儿童 早教 读物 。 我 们 设计 的 网 络 有 
一 个 由 7 个 字母 组 成 的 窗口 ， 每 个 字母 由 29 个 单元 (包含 空格 和 标点 符 
号 ) 表示 ， 共 203 个 输入 单元 。 研 究 目标 是 预测 窗口 中 间 位 置 那 个 字母 
的 读音 。 输 入 单元 与 80 个 隐藏 单元 相连 ， 隐 茂 单 元 又 投射 到 26 个 输出 单 
元 ， 每 个 输出 单元 对 应 一 个 基本 发 音 ， 在 英语 里 极 称 为 “ 音 
fit” (phonemes) 。 我 们 把 该 字母 发 首 网 络 叫 作 “ 话 语 网 络 ”( 见 图 8- 












































2) 。 网 网络 中 有 18 629 个 权重 ， 按 照 1986 年 的 标准 衡量 ， 这 是 个 十 分 
庞大 的 数字 。 而 按照 当时 的 数学 统计 标准 来 看 ， 根 本 没 法 进行 操作 。 有 
了 这 么 多 的 参数 ， 我 们 被 告知 训练 集 可 能 会 被 过 度 拟 合 ， 导 致 网 络 无 法 
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当 单 词 在 有 7 个 字母 的 窗口 中 依次 穿 过 时 ， 网 络 为 窗口 中 位 于 中 间 
的 字母 分 配 了 一 个 音 位 。 项 目 中 花费 时 间 最 长 的 部 分 ， 是 手动 将 音 位 与 
正确 的 字母 相 匹 配 ， 因 为 字母 的 数量 与 每 个 单词 中 音 位 的 数量 不 同 。 相 
比 之 下 ， 学 习 过 程 束 发 生 在 我 们 眼前 ， 其 表现 随 着 句子 在 窗口 中 循环 而 
变 得 越 来 越 好 。 当 学 习 收 敛 时 ， 网 络 在 有 100 个 单词 的 训练 集中 的 表现 
卉 称 完美 。 虽 然 对 新 单词 进行 测试 的 效果 很 兰 ， 但 由 于 我 们 对 在 这 样 一 
个 小 的 训练 集 上 成 功 泛 化 的 预期 并 不 高 ， 所 以 这 个 初步 结果 仍然 令 人 辟 
舞 。 
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图 8-2 话语 网 络 前 馈 网 络 模型 。 底 层 的 7 组 单元 代表 在 文本 间 移 动 的 窗口 中 的 字母 ， 每 次 提取 一 
个 字母 。 该 网 络 的 目标 是 正确 预测 位 于 中 间 位 置 的 字母 的 声音 ， 在 这 个 例子 中 就 是 很 难 发 音 
的 “c” 音 位 。 输 入 层 中 的 每 个 单元 与 所 有 隐藏 单 元 都 建立 了 连接 ， 而 后 者 又 会 投射 到 输出 层 上 
的 所 有 单元 。 反 向 传播 学 习 算 法 能 够 使 用 来 自 训练 者 的 反馈 来 训练 权重 。 正 确 的 输出 模式 会 与 
网 络 的 输出 结果 进行 比较 ， 在 这 个 例子 里 ， 输 出 的 是 “k” 音 位 ， 那 么 误差 就 会 被 反 向 传播 给 前 
面 若 和 干 层 上 的 权重 。 








随后 ， 我 们 使 用 了 含有 2 万 个 字母 的 布 明 语料库 (Brown 
Corpus) [和 四， 并 为 每 个 字母 指定 了 音 位 以 及 重音 标记 。 字 母 和 声音 的 
对 应 工作 花 了 几 周 的 时 间 ， 但 是 学 习 开始 后 ， 网 络 在 一 个 晚上 就 吸收 了 
整个 训练 集 的 信息 。 那 么 它 能 进行 泛 化 吗 ? 结果 证 明 ， 泛 化 的 结果 非常 
漂亮 。 该 网 络 已 经 发 现 了 英语 发 首 的 规律 性 ， 并 且 可 以 识别 出 例外 和 情 
况 ， 所 有 这 些 都 是 基于 相同 的 架构 和 学 习 算 法 。 虽 然 按照 今天 的 标准 来 
看 ， 这 一 成 果 和 人 微不足道， 但 我 们 的 网 络 很 好 地 证 明了 反 辐 传播 网 络 如 何 
能 够 有 效 地 表征 英语 音韵 。 这 是 我 们 得 到 的 第 一 个 暗示 ， 即 神经 网 络 学 
习 语言 〈 符 号 表征 的 典型 代表 ) 的 方式 和 人 类 的 学 习 方 式 相同 。 

在 获得 了 大 声明 读 的 能 力 后 ， 话 语 网 络 首先 经 历 了 一 个 胡言 乱 语 的 
阶段 ， 成 功 识 别 了 辅音 和 元 音 之 间 的 区 别 ， 却 将 音 位 “b” 分 配给 了 所 有 
辅 首 ， 将 音 位 “a” 分 配给 了 所 有 的 元 首 。 刚 开始 ， 它 的 发 首 昕 起 来 像 “ba 
ba”， 经 过 更 多 的 学 习 之 后 ， 发 音 偏 辣 了 “ba ga da”。 这 种 现象 与 竖 儿 响 
蚜 学 语 的 状态 非常 类 似 。 之 后 它 开始 能 够 正确 地 说 出 短 词 的 发 首 ， 最 后 
在 训练 结束 时 ， 我 们 已 经 可 以 听 懂 它 说 的 大 多 数 单词 了 。 


为 了 测试 话语 网 络 在 方言 上 的 表现 ， 我 们 找到 了 一 个 来 自 洛 杉 矶 郊 
外 的 拉丁 裔 男孩 接受 采访 时 的 音韵 翻录 材料 。 训 练 有 素 的 网 络 重新 创建 
了 一 段 该 男孩 带 有 西班牙 语 口音 的 英语 ， 谈 论 的 是 他 探望 自己 的 祖母 
时 ， 有 时 会 得 到 糖果 。 通 过 将 话语 网 络 的 输出 播放 到 一 个 叫 
作 *DECtalk” 的 语音 合成 器 中 ， 一 串 音 位 标签 被 转换 为 可 听 的 语音 ， 我 
记录 下 了 学 习 阶 段 中 的 一 系列 语音 片段 。 当 我 在 某 次 演讲 过 程 中 播放 这 
段 录 首 时 ， 台 下 的 观众 彻底 震惊 了 一 一 这 个 网 络 直 接 证 明了 它 的 语言 能 
力 。[ 引 这 个 暑期 项 目的 结果 完全 超出 了 我 们 的 预期 ， 并 成 为 神经 网 络 
学 习 领 域 的 第 一 个 实际 应 用 。1986 年 ， 我 带 着 话语 网 络 参加 了 《今日 
#5) (Today show) 节目 ， 那 一 期 的 收视 率 很 怀 人 。 在 此 之 前 ， 神 经 网 
络 一 直 是 一 门神 秘 的 学 科 。 我 还 遇 到 过 很 多 人 ， 他 们 在 观看 这 个 节目 时 
是 第 一 次 听 到 神经 网 络 这 个 概念 。 


虽然 话语 网 络 有 力 地 证 明了 一 个 神经 网 络 的 确 能 够 对 语言 的 茶 些 方 

















面 进行 表征 ， 但 它 并 不 是 反映 人 类 如 何 获 得 阅读 技能 的 优质 模型 。 首 
先 ， 我 们 在 学 习 阅 读 之 前 束 先 学 会 了 说 话 。 其 次 ， 有 限 的 几 个 语音 规则 
就 能 帮助 我 们 开启 大 声 精 确 姑 读 的 复杂 任务 。 但 是 ， 大 声明 读 很 快 就 变 
成 了 快速 的 模式 识别 ， 并 不 需要 有 意识 地 应 用 规则 。 大 多 数 会 说 英语 的 
人 都 会 在 阅读 刘易斯 : 卡 罗 尔 〈Lewis Carroll) 的 诗 Jabberwocky 时 ， 不 由 
自主 地 读 出 “brillig”、“slithy” 和 “toves” 等 无 意义 的 词 ， 就 像 读 正常 的 词 
一 样 ， 话 语 网 络 也 是 如 此 。 这 些 虚 构 的 词 不 存在 于 任何 字典 中 ， 但 是 可 
以 触发 由 瑞 语 中 相关 字母 模式 组 成 的 首位 。 

话语 网 络 给 观众 留 下 了 深刻 的 印象 ， 不 过 现在 ， 人 查尔斯 和 我 需要 对 
这 个 网 络 进行 分 析 ， 弄 清楚 它 到 底 是 如 何 工 作 的 。 为 此 ， 我 们 对 隐藏 单 
元 中 的 活动 模式 进行 了 聚 类 分 析 〈cluster analysis) ， 并 发 现 话 语 网络 察 
觉 到 了 相似 的 元 音 和 辅音 的 分 类 ， 这 和 语言 学 家 们 已 经 识别 出 的 分 类 相 
fe), Hw SEAR (Mark Seidenberg) 和 往 姆 斯 :麦克 莱 兰 采用 了 一 种 
类 似 的 方法 作为 研究 的 起 点 ， 将 其 与 儿童 在 学 习 陪 读 时 经 历 的 一 系列 阶 
段 进 行 了 详细 比较 。 忆 | 


话语 网 络 以 出 人 意料 的 方式 影响 了 这 个 世界 。 作 为 约 于: 霍 普 金 斯 
大 学 托马斯 :詹金斯 (Thomas C. Jenkins) 生物 物理 系 的 一 名 教员 ， 我 开 
CeO EA Ta Tal aE OR. RAE A AER BY 
复杂 的 结构 ， 该 结构 赋予 了 蛋白 质 广泛 的 功能 ， 例 如 血红 重 白 ， 它 能 够 
与 血红 细胞 中 的 氧 结合 。 根 据 氮 基 酸 序列 来 预测 和 捍 白 质 的 三 维 形状 是 一 
个 难度 很 高 的 计算 问题 ， 对 大 多 数 重 日 质 来 说 ， 即 便 使 用 功能 最 强大 的 
计算 机 也 没 办 法 实现 。 然 而 ， 有 一 种 单元 结构 相对 更 容易 预测 ， 被 称 为 
二 级 结构 (secondary structures) 。 在 二 级 结构 中 ， 氨 其 酸 以 螺旋 、 平 面 
或 无 规 卷曲 的 方式 缠绕 。 生 物 物理 学 家 们 使 用 的 算法 考虑 了 不 同 氨 基 酸 
的 化 学 性 质 ， 但 他 们 的 预测 还 不 足以 解决 三 维 空 间 的 折 邯 问题 。 

钱 宁 是 我 实验 室 的 一 年 级 研究 生 ， 他 是 1980 年 在 中 国 所 有 物理 系 的 
学 生 中 ， 为 数 不 多 被 选中 来 美国 攻读 研究 生 课 程 的 人 之 一 。 我 们 想 知 
道 ， 如 果 为 每 个 氨基 酸 分 配 螺 旋 、 平 面 或 无 规 卷曲 的 参数 ， 话 语 网 络 是 


















































售 可 以 通过 一 串 所 基 酸 序列 来 预测 和 蛋白质 的 二 级 结构 。 这 是 一 个 重要 的 
问题 ， 因 为 蛋白 质 的 三 维 结构 决定 了 它 的 功能 。 输 入 由 字母 序列 变 成 了 
氨基 酸 序列 ， 而 预测 的 结果 由 音 位 变 成 了 二 级 结构 。 训 练 集 是 由 X 射 线 
唱 体 学 确定 的 三 维 结构 。 让 我 们 意 想 不 到 的 是 ， 它 对 于 新 和 蛋白质 的 二 级 
结构 的 预测 ， 要 远 远 好 于 基于 生物 物理 学 的 最 佳 方法 ， 上 0 这 一 具有 里 
程 夏 意义 的 研究 是 机 器 学 习 在 分 子 序列 中 的 首次 应 用 ， 该 领域 现在 被 称 
为 生物 信息 学 (bioinformatics) 。 

另 一 个 学 会 了 如 何 形 成 瑞 语 动词 过 去 时 的 网 络 ， 成 了 认 知 心理 学 领 
域 中 备 受 争 议 的 问题 ， 基 于 规则 的 保守 派 与 前 卫 的 PDP 研 究 组 展开 了 激 
烈 的 争论 。 呈 形成 过 去 时 的 常规 方法 是 给 英文 动词 加 上 后 级 “ed”"， 例 
如 把 “train” 变 成 “trained”。 但 是 有 不 规则 形式 的 例外 ， 例 如 把 “run” 变 
成 “ran”。 神 经 网 络 可 以 很 好 地 适应 规则 和 例外 情况 。 虽 然 人 们 在 这 一 点 
上 已 经 很 少 争 论 了 ， 但 关于 规则 的 显 式 表征 Cexplicit representation) 在 
大 脑 中 的 角色 这 一 问题 ， 仍 然 有 竺 回答。 最 近 利 用 神经 网 络 学 习 语言 的 
实验 支持 了 屈折 形态 学 (Cinflectional morphology) 中 的 逐步 获取 概念 ， 
这 与 人 类 的 学 习 方式 是 一 致 的 。 呈 人 4 深度 学 习 与 谷歌 翻译 和 其 他 自然 语 
言 应 用 相 结 合 ， 在 捕捉 语言 细微 差别 上 获得 的 成 功 ， 进 一 步 支持 了 大 脑 
不 需要 使 用 显 式 语言 规则 的 可 能 性 ， 即 便 其 实际 行为 可 能 体现 了 相反 的 
结论 。 

ARE HW, KE REH (David Touretzky) 和 我 于 1986 年 在 
卡 内 基 - 梅 隆 大 学 组 织 了 第 一 期 联结 主义 嗜 期 课程 〈 见 图 8-3) ， 那 时 候 
只 有 少数 几 所 大 学 开设 了 神经 网 络 课程 。 在 一 个 基于 话语 网 络 的 小 游戏 
中 ， 学 生 们 逐 层 列队 ， 每 个 学 生 代 表 网 络 中 的 一 个 单元 《尽管 他 们 在 传 
播 “Sejnowski> 中 的 “*j” 时 发 生 了 错误 ， 因 为 它 的 发 音 类 似 于 “y”， 并 不 遵 
循 瑞 文 发音 模 式 ) 。 这 些 学 生 中 的 许多 人 随后 都 陆续 获得 了 重要 发 现 ， 
并 开创 了 各 自 的 事业 。1988 年 ， 第 二 期 暑期 课程 在 卡 内 其- 梅 隆 大 学 开 
办 ，1990 年 第 三 期 的 举办 地 是 加 州 大 学 圣迭戈 分 校 。 新 的 想法 在 经 历 了 
一 代 人 的 时 间 后 ， 才 进入 主流 研究 领域 。 这 些 蠕 期 课程 让 所 有 人 受益 菲 


















































浅 ， 也 是 我 们 在 早期 推广 该 领域 的 最 佳 投资 。 





图 8-3 卡 内 基 - 梅 隆 大 学 1986 年 联结 主义 早期 课程 的 学 生 。 杰 上 弗 里 。 痒 顿 是 第 一 排 右 数 第 三 位 ， 
他 的 两 边 分 别 是 我 E) PEI e 麦克 莱 兰 。 这 张 照片 成 了 当今 神经 计算 领域 的 “名 人 

录 ”。20 世 纪 80 年 代 的 神经 网 络 ， 很 像 是 存在 于 20 世 纪 的 21 世 纪 科 学 。 图 片 来 源 : APE? $ 
BR S 


神经 网 络 的 重生 


由 和 鲁 姆 哈 特 和 麦克 莱 兰 编辑 的 两 卷 《 并 行 分 布 式 处 理 》 于 1986 年 出 
版 ， 已 经 成 为 当今 的 经 典 著作 。 这 是 第 一 套 曾 述 神经 网 络 和 多 层 学 习 算 
法 对 理解 精神 和 行为 现象 的 影响 的 书籍 。 它 的 销量 超过 了 5 万 套 ， 在 学 
术 领 域 算得 上 是 畅销 书 了 。 神 经 网 络 在 经 过 了 反 向 传播 的 训练 后 ， 其 隐 
藏 单元 具备 了 类 似 视觉 系统 中 皮层 神经 元 的 属性 ，L 引 而 且 其 展现 出 的 
故障 模式 ， 也 和 人 类 在 大 脑 受 损 后 产生 的 缺陷 有 很 大 的 相似 性 。D4 


厚度 西 斯 : 克 里 克 是 PDP 小 组 的 成 员 ， 参 加 了 小 组 大 部 分 的 会 议和 讲 




















座 。 在 关于 并 行 分 布 式 处 理 模型 如 何 具有 生物 特性 的 争论 中 ， 他 认为 应 
该 将 它们 看 作 可 行 性 证 明 ， 而 不 是 大 脑 的 标准 模型 。 他 为 ” 《并 行 分 布 
式 处 理 》 一 书 撰写 了 其 中 一 个 章节 ， 介 绍 了 当时 我 们 所 了 解 的 大 脑 皮 
层 。 而 我 写 的 那 一 章 ， 则 总 结 了 当时 我 们 对 大 脑 皮 层 的 哪些 方面 还 不 太 
了 解 。 如 果 这 些 章节 是 今天 写 下 的 ， 都 会 比 原来 的 版 本 要 长 得 多 。 


20 世 纪 80 年 代 还 有 一 些 成 功 案 例 并 不 为 人 所 知 。 基 于 神经 网 络 技术 
的 最 赚钱 的 公司 之 一 是 HNC SoftwareH ER WB], EHE EUREN E RE AK 
fk (Robert Hecht-Nielsen) 创立 ， 该 公司 使 用 神经 网 络 来 防止 信用 卡 欺 
VE Ah ERE AR AR PS EDI KR BIE KEP RY HL TP EL LERE 
教 ， 教 授 过 一 门 关 于 神经 网 络 实际 应 用 的 热门 课程 。 每 天 都 有 信用 卡 信 
恩 被 全 球 网 络 犯 罪 分 子 盗 取 。 信 用 卡 的 交易 数据 规模 十 分 庞大 ， 从 中 挑 
出 可 疑 的 信息 是 一 项 艰巨 的 任务 。 在 20 世 纪 80 年 代 ， 工 作 人 员 要 在 短 时 
间 内 做 出 是 否 批准 或 拒绝 某 项 信用 卡 交 易 的 决定 ， 而 这 导致 了 每 年 1500 
多 亿美 元 的 交易 存在 欺诈 行为 。HNC Software 有 限 公 司 使 用 神经 网 络 学 
习 算 法 ， 以 远 高 于 人 类 的 准确 度 检测 信用 卡其 诈 行 为 ， 每 年 为 信用 卡 公 
司 节省 了 数 十 亿美 元 。2002 年 ，HNC 被 美国 个 人 消费 信用 评估 公司 
(Fair Isaac and Company, FICO) 以 10 亿 美元 的 价格 收购 ， 后 者 以 发 
布 信用 评分 而 闻名 。 


观察 神经 网 络 的 学 习 过 程 颇 有 些 神奇 ， 它 不 断 以 微小 的 步伐 优化 目 
号 的 表现 。 这 个 过 程 会 十 分 缓慢 ， 但 是 如 宁 有 足够 的 训练 样本 ， 并 且 网 
络 足够 大 ， 学 习 算 法 就 可 以 找到 一 个 很 好 的 能 够 汉化 的 表征 方式 ， 以 适 
应 新 的 输入 。 采 用 随机 选择 的 一 组 初始 权重 并 重复 该 训练 过 程 时 ， 每 次 
都 会 学 习 到 不 同 的 网 络 ， 但 都 具有 相似 的 性 能 。 许 多 网 络 可 以 解决 同样 
的 问题 ， 这 就 暗示 了 当 我 们 重建 不 同 个 体 大 脑 的 完整 连接 集 时 ， 应 该 怀 
有 何 种 期 待 。 如 果 许 多 网 络 表 现 出 了 相同 的 行为 ， 理 解 它 们 的 关键 就 在 
于 大 脑 所 使 用 的 学 习 算 法 ， 而 这 个 算法 应 该 更 容易 被 故 现 。 























理解 真正 的 深度 学 习 


Ære (convex optimization) 问题 中 ， 不 存在 局 部 最 小 值 ， 可 以 
保证 收敛 发 生 在 全 局 最 小 值 处 。 但 在 非 凸 优化 问题 中 ， 情 况 就 不 同 了 。 
优化 专家 告诉 我 们 ， 由 于 在 隐藏 单元 网 络 中 学 习 是 一 个 非 凸 优化 问题 ， 
所 以 我 们 只 是 在 浪 综 时 间 一 一 我 们 的 网 络 会 陷入 局 部 最 小 值 〈 见 图 8- 
4) 。 但 经 验证 据 表 明 ， 他 们 错 了 。 为 什么 呢 ? 我 们 现在 知道 ， 在 维度 
很 高 的 空间 中 ， 代 价 函 数 的 局 部 最 小 值 是 很 罕见 的 ， 直 到 学 习 的 最 后 阶 
段 才 会 出 现 。 在 早期 阶段 ， 几 乎 所 有 的 方向 都 是 下 坡 ， 而 在 下 坡 的 过 程 
中 存在 鞍点 ， 一 些 方向 会 错误 地 开始 上 升 ， 而 在 其 他 维度 则 继续 下 降 。 
产生 网 络 会 陷入 局 部 最 小 值 的 直觉 ， 是 因为 解决 低 维 空间 中 的 问题 时 ， 
逃生 方向 的 数量 要 少 得 多 。 
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图 8-4 IE AU eh Re m Ap ES RELA AHR SAEI (0) 绘制 为 参数 6 89 E. mE 
只 有 一 个 最 小 值 〈 右 图 ) ， 即 从 表面 任何 位 置 向 下 移动 都 可 达到 的 全 局 最 小 值 。 想 象 一 下 ， 你 
是 一 名 滑雪 者 ， 并 始终 将 滑雪 板 朝向 最 陡峭 的 下 坡 方向 ， 保 证 你 一 定 会 滑 到 底 。 相 比 之 下 ， 非 
凸 代价 函数 可 以 包 侈 局 部 最 小 值 〈 左 图 ) ， 这 些 则 是 陷阱 ， 让 你 无 法 通过 一 路 下 坡 找到 全 局 最 
小 值 。 国 此 ， 非 丁 代 价 函 数 很 难 优化 。 不 过 这 个 一 维 的 例子 具有 一 定 的 误导 性 。 当 有 许多 参数 
时 (通常 在 神经 网 络 中 有 数 百 万 个 参数 ) ， 就 会 存在 鞍点 ， 即 在 菜 些 维度 上 会 向 上 廿 起 ， 而 在 
另 一 些 维度 上 向 下 凹陷 。 当 你 位 于 鞍点 上 时 ， 总 会 存在 一 个 下 坡 的 方向 。 





目前 的 深层 网 络 模型 有 数 百 万 个 单元 和 数 十 亿 的 权重 。 统 计 学 家 在 
传统 上 只 用 少量 参数 分 析 简 单 模型 ， 这 样 就 可 以 用 较 小 的 数据 集 来 证 明 
定理 。 而 拥有 数 十 亿 个 维度 的 空间 对 他 们 来 说 简直 融 是 一 场 亚 梦 。 他 们 
回 我 们 保证 ， 有 这 么 多 的 参数 ， 对 数据 的 过 度 拟 合 绝对 是 不 可 避免 的 : 
我 们 的 网 络 只 会 简单 地 记 住 训练 数据 ， 但 无 法 泛 化 以 适应 新 的 测试 输 
入 。 但 是 ， 使 用 正则 化 (regularization) 手段 ， 比 如 在 已 有 权重 对 学 习 











没有 任何 贡献 时 ， 可 以 通过 强迫 它们 进行 衰减 来 缓解 过 度 拟 合 的 现象 。 

一 个 特别 巧妙 的 正则 化 技术 ， 叫 作 * 失 活 ”(dropout) ， 其 发 明 者 是 
Age sedi, BERAZA (epoch) ， 当 从 许多 训练 实例 中 估 
计 出 梯度 ， 并 对 权重 进行 更 新 时 ， 有 一 半 的 单元 就 会 被 随机 地 暂时 从 网 
络 中 剔除 一 这 就 意味 着 ， 每 个 周期 中 训练 的 都 是 不 同 的 网 络 。 其 导致 
的 结果 就 是 ， 在 每 个 周期 中 需要 训练 的 参数 都 更 少 ， 并 且 与 在 每 个 周期 
中 训练 相同 的 大 型 网 络 相 比 ， 单 元 之 间 的 依赖 关系 更 少 。 失 活 过 程 将 深 
度 学 习 网 络 的 错误 率 降 低 了 10%， 这 是 一 个 很 大 的 改进 。2009 年 ， 网 飞 
(Netflix) 举办 了 一 场 公开 竞赛 第 一 个 将 他 们 推荐 系统 的 错误 减少 
10% 的 人 ， 会 得 到 100 万 美元 的 奖金 。 呈 外 I 几乎 每 个 机 器 学 习 领域 的 研究 
生 都 参与 了 竞争 。 网 飞 的 这 笔 奖金 很 可 能 启发 了 价值 1000 万 美元 的 研 
究 。 现 在 ， 深 度 网 络 已 经 成 为 在 线 流 媒 体 的 核心 技术 。 上 [7 

有 趣 的 是 ， 皮 层 突 触 会 以 很 高 的 速度 失 活 。 对 于 来 自 输 入 的 放电 ， 
皮层 中 典型 的 兴奋 性 突 触 都 有 90% 的 失败 率 。HL8] 这 就 像 一 个 棒球 队 ， 
几乎 所 有 球员 的 击 球 成 功率 都 是 0.1。 大 脑 是 如 何 利 用 这 种 不 可 靠 的 皮 
层 突 触 来 实现 可 靠 的 功能 呢 ? 当 每 个 神经 元 上 存在 数 千 个 概率 突 触 时 ， 
其 活动 总 和 的 多 样 性 相对 较 低 ，Ll 这 意味 着 其 性 能 可 能 不 会 像 你 想象 
的 那样 大 规模 地 下 降 。 学 习 过 程 中 在 突 触 层面 发 生 失 活 的 好 处 ， 可 能 远 
大 于 准确 性 降低 的 代价 。 而 且 由 于 突 触 需要 消耗 大 量 的 能 量 ， 失 活 也 可 
以 节省 能 量 。 最 后 ， 皮 层 使 用 概率 来 计算 可 能 的 ， 而 非 确定 的 结果 ， 所 
以 使 用 概率 性 分 量 是 表示 概率 的 有 效 方式 。 


虽然 皮层 突 触 也 许 并 不 可 靠 ， 但 是 它们 的 强度 却 惊人 的 精确 。 皮 层 
突 触 的 大 小 及 其 相应 的 强度 在 100 倍 的 范围 内 变化 ， 单 一 突 触 的 强度 可 
以 在 此 范围 内 增加 或 减少 。 与 得 殉 陡 斯 大 学 奥斯汀 分 校 的 神经 解剖 学 家 
克 里 斯 亲 :哈里 斯 (Kristen Harris) 合作 ， 我 的 实验 室 最 近 重 建 了 一 小 块 
大 鼠 的 海马 体 ， 这 是 大 脑 中 形成 长 期 记忆 上 所 需 的 区 域 ， 其 中 包含 450 个 
突 触 。 大 多 数 轴 突 会 在 树 突 的 分 文 上 形成 单个 突 触 ， 但 在 少数 情况 下 ， 
一 个 轴 突 的 两 个 突 触 会 接触 到 相同 的 树 突 。 令 人 惊讶 的 是 ， 它 们 的 尺寸 
































几乎 相同 ， 之 前 的 研究 经 验 告诉 我 们 ， 这 意味 着 它们 也 有 具有 相同 的 强 
度 。 人 们 已 经 了 解 了 导致 这 些 突 触 强度 发 生变 化 的 条 件 。 这 些 突 触 的 强 
度 变化 取决 于 输入 尖峰 的 历史 和 树 突 啊 应 的 电 活 动 ， 对 于 来 自 同 一 个 树 
突 上 相同 轴 突 的 一 对 突 触 来 说 也 是 如 此 。 根 据 这 些 观察 ， 我 们 推 师 信息 
存储 在 突 触 强度 中 的 精度 很 高 ， 足 以 存储 至 少 5 位 信息 。 习 深度 循环 
网 络 的 学 习 算 法 只 需要 5 位 就 能 实现 高 水 平 的 性 能 ， 这 很 可 能 不 是 巧 
A [21 


大 脑 网 络 的 维度 非常 高 ， 我 们 对 其 甚至 没有 很 好 的 估计 。 大 脑 皮 层 
中 的 突 触 总 数 约 为 100 万 亿 ， 几 乎 是 个 天 文 数 字 。 人 类 的 寿命 不 过 几 十 
亿 秒 。 以 这 样 的 速度 ， 你 可 以 为 你 生活 中 的 每 一 秒 贡 献 出 10 万 个 突 触 。 
在 实际 情况 中 ， 神 经 元 往往 具有 聚集 的 局 部 连接 ， 例 如 在 由 10 亿 个 突 触 
连接 的 由 10 万 个 神经 元 组 成 的 皮层 柱 内 。 虽 然 这 仍然 是 一 个 很 大 的 数 
字 ， 但 还 远 算 不 上 天 文 数字 。 长 距离 连接 比 本 地 连接 要 少 得 多 ， 因 为 神 
经 连接 会 占用 宝贵 的 空间 ， 并 且 会 消耗 大 量 能 量 。 

代表 皮层 中 一 个 对 象 或 概念 的 神经 元 的 数量 ， 是 一 个 重要 的 数字 。 
粗略 估计 一 下 ， 需 要 的 突 触 数量 约 为 10 亿 ， 需 要 的 神经 元 数量 约 为 10 
万 ， 分 布 在 10 个 皮层 区 域 中 。 世 3 也 就 是 说 ， 约 10 万 个 独立 的 、 互 不 干 
扰 的 对 象 类 别 和 概念 存储 在 100 万 亿 个 突 触 中 。 在 实际 情况 中 ， 代 表 相 
似 对 象 的 神经 元 群 是 重 琶 的 ， 这 可 以 大 大 增加 皮层 表达 相关 对 象 和 对 象 
之 间 关 系 的 能 力 。 这 种 能 力 在 人 类 中 比 在 其 他 哺乳 动物 中 要 强大 得 多 ， 
因为 人 类 大 脑 中 的 联合 皮层 Cassociative cortex， 在 感官 和 运动 层级 的 上 
方 ) 在 进化 过 程 中 发 生 了 显著 的 扩张 。 


高 维 空间 中 概率 分 布 的 研究 在 20 世 纪 80 年 代 还 是 一 个 相对 而 言 未 被 
开发 的 统计 领域 。 有 几 位 统计 学 家 研究 了 在 探究 高 维 空 间 和 高 维 数据 集 
时 出 现 的 统计 问题 ， 例 如 斯 坦 福 大 学 的 里 奥 : 布 莱 受 (Leo Breiman) , 
他 是 NIPS 社 区 中 的 一 员 。 来 自 该 社区 的 一 些 人 ， 例 如 加 州 大 学 伯克利 分 
校 的 迈克 尔 : 乔 丹 (Michael Jordan) 也 在 统计 系 任职 。 然 而 大 多 数 情 况 
下 ， 大 数据 时 代 的 机 器 学 习 已 经 发 展 到 了 令 统 计 学 家 望 而 生 有 长 的 程度 。 



































但 仅仅 通过 训练 大 型 网 络 来 做 出 令 人 惊叹 的 事情 是 不 够 的 ， 我 们 也 需要 
分 析 和 理解 它们 是 如 何 做 到 的 。 物 理学 家 在 这 方面 占据 了 领先 地 位 ， 由 
于 神经 元 和 突 触 的 数量 越 来 越 大 ， 他 们 利用 了 统计 物理 学 的 方法 来 分 析 
学 习 的 特性 。 

2017 年 在 长 滩 举 办 的 NIPS 会 议 上 ,“ 时 间 考 验 奖 ”(the Test of Time 
award) 被 授予 了 加 州 大 学 伯克利 分 校 的 本 杰 明 : 雷 希 特 Benjamin 
Recht) 和 谷歌 的 阿里 . 拉 希 米 (Ali Rahimi) 在 2007 年 联名 发 表 的 NIPS 
论文 。23 引 该 论文 表明 ， 随 机 特征 可 以 有 效 地 提高 具有 一 层 学 习 权 重 网 
络 的 性 能 的 有 效 方 法 ， 这 是 弗 兰 元 : 罗 和 森 布 拉 特 在 1960 年 通过 感知 器 的 
试验 了 解 到 的 。 拉 希 米 在 获奖 后 的 演讲 中 发 出 了 对 机 器 学 习 严 谨 性 的 强 
烈 呼 吁 ， 他 感叹 深度 学 习 缺 乏 严 说 性 ， 并 嘲讽 它 为 “炼金 术 ”。 我 当时 正 
AYE FL UK B= SCA Amor BE (Yann LeCun) 2:32, MER, tor EE 
一 篇 博客 中 写 道 : “批评 整个 团体 〈 还 是 那个 领域 中 非常 成 功 的 团体 ) 
是 在 钻研 “炼金 术 :， 仅 仅 因 为 我 们 目前 的 理论 工具 还 没有 赶 上 我 们 的 实 
践 ， 这 是 十 分 危险 的 做 法 。 为 什么 危险 呢 ? 正 是 这 种 态度 ， 导 致 机 器 学 
习 社 区 将 神经 网 络 的 研究 搁置 了 超过 10 年 ， 尽 管 有 充分 的 经 验证 据 表 
明 ， 它 们 在 许多 情况 下 运行 良好 。” DAbxg—wednpsi a 
科学 方法 之 间 的 混战 。 想 要 取得 进展 ， 这 两 个 都 是 不 可 或 缺 的 。 























神经 网 络 的 局 限 性 


虽然 神经 网 络 可 以 给 出 一 个 问题 的 正确 答案 ， 但 目前 还 没有 办 法 解 
释 它 们 是 如 何 得 到 这 个 答案 的 。 例 如 ， 假 设 一 名 感到 胸部 刺 痛 的 女性 患 
者 来 到 急诊 室 。 这 是 心肌 梗死 的 一 种 症状 ， 需 要 立即 进行 干预 ， 还 是 仅 
仅 是 由 一 种 严重 的 消化 不 恨 引 起 的 呢 ? 训练 有 素 的 神经 网 络 可 能 会 比 医 
生 做 出 更 准确 的 诊断 ， 但 如 果 不 清楚 网 络 为 何 做 出 这 样 的 决定 ， 我 们 就 
有 理由 不 信任 它 。 医 生 和 算法 一 样 ， 也 要 接受 一 系列 测试 和 决 集 皮 的 指 
导 ， 通 过 常规 案例 进行 培训 。 但 问题 在 于 ， 有 些 罕见 的 情况 并 不 在 他 们 











算法 覆盖 的 范围 之 内 ， 而 神经 网 络 则 经 历 过 更 多 案例 的 训练 ， 远 远 超过 
一 般 医 生 在 一 生 中 会 经 历 的 ， 网 络 可 能 会 很 好 地 捕捉 到 这 些 罕见 病例 。 
但 是 ， 你 会 相信 无 法 解释 其 理由 ， 但 从 统计 上 来 说 诊断 能 力 更 强 的 神经 
网 络 ， 而 不 去 相信 看 似 有 赁 有 据 的 医生 吗 ? 事实 上 ， 那 些 能 够 精确 诊断 
罕见 病例 的 医生 都 有 着 丰富 的 经 验 ， 并 且 大 多 数 使 用 了 模式 识别 而 不 是 
算法 。 上 引 对 于 各 个 领域 的 最 高 级 别 专家 来 说 ， 情 况 可 能 都 是 如 此 。 

正如 可 以 训练 网 络 来 提供 专业 的 诊断 ， 是 否 有 可 能 把 其 背后 的 解释 
作为 训练 集 的 一 部 分 ， 来 训练 网 络 对 其 行为 进行 解释 呢 ? 这 样 一 来 也 许 
还 可 以 帮助 改善 诊断 。 这 一 建议 是 存在 问题 的 ， 原 因 是 医生 给 出 的 许多 
解释 都 是 片面 的 、 过 度 简 化 的 ， 或 错误 的 。 每 一 代 医疗 实践 与 前 一 代 相 
比 都 发 生 了 巨大 的 变化 ， 因 为 人 体 的 复杂 性 大 大 超出 了 我 们 目前 的 理解 
能 力 。 如 果 我 们 可 以 通过 分 析 网 络 模型 的 内 部 状态 来 提取 因果 解释 ， 就 
可 能 会 产生 能 够 推动 医学 发 展 的 新 的 见解 和 假设 。 

神经 网 络 是 一 个 黑 盒 子 ， 其 理论 尚 无 法 被 理解 ， 这 个 陈述 对 大 脑 也 
成 立 。 事 实 上 ， 在 给 定 相同 数据 的 情况 下 ， 不 同 的 个 体 做 出 的 决定 也 会 
千差万别 。 我 们 的 确 还 不 清楚 大 脑 是 如 何 从 经 验 中 得 出 推论 的 。 就 如 第 
三 章 所 讨论 的 ， 结 论 并 不 总 是 基于 逻辑 ， 其 中 还 存在 认 知 偏差 。 上 他 此 
外 ， 我 们 所 接受 的 解释 ， 往 往 仅 仅 是 合理 的 解释 或 似是而非 的 故事 。 我 
们 并 不 能 排除 某 一 天 某 个 非常 大 的 生成 网 络 会 突然 开始 说 话 的 可 能 性 ， 
到 时 我 们 就 可 以 向 它 寻 求解 释 了 。 我 们 是 否 应 该 期 待 ， 能 从 这 样 的 网 络 
获得 比 从 人 类 那里 得 到 的 更 好 的 故事 和 合理 的 解释 呢 ? 回想 一 下 ， 意 识 
并 不 涉及 大 脑 的 内 部 运作 。 深 度 学 习 网 络 通常 会 按照 排名 次 序 提 供 几 个 
而 非 一 个 主要 的 预测 ， 这 为 我 们 提供 了 关于 结论 可 信 度 的 一 些 信息 。 监 
督 神经 网 络 只 能 解决 用 来 训练 网 络 的 数据 范围 内 的 问题 。 如 果 接 受过 类 
似 案例 或 样本 的 培训 ， 神 经 网 络 应 该 在 新 案例 做 出 一 个 很 好 的 插值 。 但 
是 ， 如 果 一 项 新 的 输入 超出 了 训练 数据 的 范围 ， 进 行 外 推 
(extrapolation) 操作 就 比较 危险 了 。 这 应 访 不 会 令 人 感到 惊讶 ， 因 为 
同样 的 限制 也 适用 于 人 类 ， 我们 不 应 该 期 望 一 个 物理 领域 的 专家 在 政治 





























问题 上 ， 甚 至 是 物理 学 中 他 专长 之 外 的 领域 ， 提 供 良 好 的 建议 。 但 是 ， 
只 要 数据 集 足 够 大 ， 能 够 涵盖 全 部 的 潜在 输入 ， 网 络 对 新 输入 进行 的 泛 
化 操作 ， 结 果 应 该 也 是 不 错 的 。 在 实践 中 ， 人 们 倾向 于 使 用 类 比 ， 从 比 
较 熟 悉 的 领域 推广 到 新 的 领域 ， 但 如 果 两 个 领域 存在 本 质 上 的 不 同 ， 这 
样 的 类 比 就 是 错误 的 。 

所 有 对 输入 进行 分 类 的 神经 网 络 都 存在 偏 倚 。 首 先 ， 对 分 类 类 别 的 
选择 就 引入 了 偏 倚 ， 这 种 偏 倚 反 映 了 我 们 如 何 对 世界 进行 分 解 。 例 如 ， 
训练 一 个 网 络 来 检测 草坪 上 的 杂 草 是 非常 实用 的 。 但 是 怎么 定义 杂 草 
We? 一 个 人 认为 是 杂 草 ， 在 另 一 个 人 看 来 可 能 是 野花 。 分 类 是 一 个 反应 
文化 偏见 的 更 宽泛 的 问题 。 用 于 训练 网 络 的 数据 集 加 剧 了 这 种 不 确定 
性 。 例 如 ， 有 许多 公司 为 执法 机 构 提 供 基于 面部 识别 的 犯罪 分 子 识别 系 
统 。 黑 人 面部 识别 中 出 现 的 假 阳 性 误 判 比 白 人 面孔 多 ， 因 为 用 于 训练 网 
络 的 数据 库 中 有 更 多 的 白人 面孔 ， 你 拥有 的 数据 越 多 ， 准 确 率 就 越 
高 。 蕊 习 数 据 库 偏 差 可 以 通过 重新 平衡 数据 来 纠正 ， 但 不 可 避免 地 会 存 
在 隐藏 的 偏 倚 ， 这 取决 于 数据 的 来 源 以 及 被 用 来 做 出 什么 样 的 决 
g, 128] 
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化 利润 。 例 如 ， 如 果 未 被 充分 代表 的 少数 群体 中 的 人 去 申请 住房 抵押 贷 
球 ， 而 已 接受 过 数 百 万 次 申请 培训 的 神经 网 络 拒 绝 了 该 申请 。 对 网 络 的 
输入 包括 当前 地 址 ， 以 及 与 少数 群体 高 度 相 关 的 其 他 信息 。 因 此 ， 即 使 
有 反对 明确 皮 视 少数 群体 的 法 律 ， 该 网 络 也 可 能 会 利用 这 些 信息 来 暗中 
收视 他 们 。 这 里 的 问题 不 在 于 神经 网 络 ， 而 在 于 我 们 让 它 优 化 的 代价 函 
数 。 如 果 利 润 是 唯一 的 目标 ， 网 络 束 会 使 用 被 提供 的 任何 信息 来 最 大 化 
利润 。 解 决 这 个 问题 的 方法 是 将 公平 性 作为 代价 函数 中 的 一 个 参数 。 虽 
然 最 佳 解决 方 采 是 在 利润 和 公平 之 间 找 到 一 种 明智 的 平衡 ， 但 必须 在 代 
价 函数 中 明确 这 种 平衡 ， 这 就 需要 有 人 决定 如 何 权衡 每 个 目标 的 重要 
性 。 那 些 人 文 和 社会 科学 领域 的 伦理 观点 应 该 为 这 些 权 衡 提 供 指 导 。 但 
我 们 必须 时 刻 牢 记 ， 选 择 一 个 看 似 公平 的 代价 函数 可 能 会 产生 意 想不到 
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伊 隆 : 马 斯 克 、 斯 蒂 芬 .霍金 以 及 立法 者 和 研究 人 员 ， 都 曾 呼吁 对 人 
工 智能 进行 规范 。2015 年 ，3722 位 人 工 智 能 和 机 器 人 研究 人 员 共 同 签署 
了 一 封 公 开 信 ， 呼 吁 禁止 使 用 自动 武器 : 





综 上 所 述 ， 我 们 认为 人 工 智能 在 很 多 方面 都 具有 造福 人 类 的 巨 
大 潜力 ， 这 也 应 该 是 该 领域 的 目标 。 但 开始 人 工 智 能 军备 竞赛 不 是 
一 个 好 主意 ， 应 该 通过 法 令 禁 止 超出 人 类 合理 控制 范围 的 自动 攻击 
pag, 1301 
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人 工 智能 是 未 来 ， 不 仅 对 俄罗斯 来 说 是 这 样 ， 对 全 人 类 也 是 一 
样 。 它 带 来 了 巨大 的 机 会 ， 但 也 会 带 来 难以 预测 的 威胁 。 无 论 谁 成 
为 这 个 领域 的 领导 者 ， 都 将 统治 全 世界 。 i31] 


全 面 茶 令 的 问题 在 于 人 工 智能 不 是 一 个 孤立 的 领域 ， 而 是 一 个 拥有 
许多 不 同 工 具 和 应 用 的 领域 ， 其 中 每 一 样 都 会 产生 不 同 的 结果 。 例 如 ， 
信用 评分 的 自动 化 是 机 器 学 习 在 20 世 纪 80 年 代 的 早期 应 用 。 有 人 担心 ， 
如 果 他 们 碰巧 住 在 声誉 不 好 的 社区 内 ， 融 会 得 到 不 公正 的 评分 。 这 就 催 
生出 了 对 用 于 计算 分 数 的 信息 进行 限制 的 法 律 规定 ， 并 要 求 公司 通 知 个 
人 如 何 提高 分 数 。 每 个 申请 都 存在 不 同 的 问题 ， 最 好 根据 具体 情况 进行 
处 理 ， 而 不 是 盲目 禁止 相关 研究 。 忆 2 


1987 年 学 术 休 假期 间 ， 我 拜访 了 索 尔 元 研究 所 的 弗朗西斯 :元 里 
克 ， 那 会 儿 我 在 加 州 理工 学 院 担任 神经 生物 学 Cornelis | Wiersma 客座 教 
授 。 弗 明 西 斯 当时 正在 建立 一 个 实力 雄厚 的 视觉 研究 小 组 ， 这 是 我 特别 
感 兴趣 的 研究 题目 之 一 。 我 在 教员 午餐 时 间 演 示 了 我 的 话语 网 络 样 带 ， 
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学 研究 所 CHoward Hughes Medical Institute) 的 一 项 任命 ， 该 机 构 为 我 
26 年 的 研究 提供 了 慷慨 的 文 持 。 


1989 年 加 入 加 州 大 学 圣 友 蕊 分校 时 ， 我 遗憾 地 发 现 ， 那 位 教授 我 们 
反 向 传播 理论 的 大 卫 : 鲁 姆 哈 特 已 经 去 了 斯 坦 福 大 学 ， 在 那 之 后 我 很 少 
有 机 会 再 见 到 他 。 多 年 来 ， 我 注意 到 大 卫 的 行为 方式 发 生 了 令 人 不 安 的 
变化 。 最 终 ， 他 科 诊 断 患 有 额 颖 时 痢 不 一 患者 大 脑 的 额 叶 皮 层 中 的 神 
经 元 会 逐渐 流失 ， 对 他 的 性 格 、 行 为 和 语言 造成 影响 。2011 年 ， 鲁 姆 哈 
特 在 他 68 岁 时 去 世 了 ， 那 时 他 已 经 认 不 出 家 人 或 朋友 了 。 
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到 了 2000 年 ， 目 20 世 纪 80 年 代 兴 起 的 神经 网 络 热潮 已 经 退去 ， 神 经 
网 络 再 次 成 为 常规 和 科学。 托马斯 : 库 恩 “Thomas Kuhn) 曾 将 科学 革命 之 
间 的 时 间 间 隅 描述 为 ， 科 学 家 在 一 个 已 经 确定 的 范式 或 解释 框架 内 进行 
理论 推定 、 观 察 和 试验 的 常规 工作 阶段 。 山 1987 年 ， 杰 弗 里 . 辛 顿 去 了 
多 伦 多 大 学 ， 并 继续 着 渐进 式 改 进 ， 虽 然 这 些 改进 都 没有 像 曾经 的 玻 尔 
兹 曼 机 那样 展现 出 魔力 。 六 顿 在 21 志 纪 头 十 年 成 为 加 拿 大 高 等 研究 院 
(Canadian Institute for Advanced Research， 简 称 CIFAR) 神经 计算 和 自 
适应 感知 项 目 (Neural Computation and Adaptive Perception， 人 简称 
NCAP) 的 带头 人 。 该 项 目 由 来 自 加 拿 大 和 其 他 国家 的 约 25 位 研究 人 员 
组 成 ， 专 注 于 解决 机 占 学 习 的 难题 。 我 是 由 杨 立 昆 担任 主席 的 NCAP 顾 
问 委 员 会 的 成 员 ， 会 在 每 年 NIPS 会 议 召 开 之 前 参加 该 项 目的 年 会 。 神 经 
网 络 的 先驱 们 在 绥 慢 而 稳定 的 过 程 中 探索 了 机 器 学 习 的 许多 新 策略 。 虽 
然 他 们 的 网 络 有 许多 有 价值 的 应 用 ， 但 却 一 直 没 有 满足 20 世 纪 80 年 代 对 
该 领域 抱 有 的 很 高 的 期 望 。 不 过 这 并 没有 动摇 先驱 者 们 的 信念 。 回 想起 
来 ， 他 们 一 直 是 在 为 发 跃 性 的 突破 黄 定 基础 。 





Hla J ae AR 


NIPS 会 议 是 20 世 纪 80 年 代 神 经 网 络 的 孵化 器 ， 为 其 他 可 处 理 大 型 高 
维 数据 集 的 算法 打开 了 大 门 。 弗 拉 基 米 尔 ' 瓦 普 尼克 的 文 持 癌 量 机 于 
1995 年 引发 了 笑 动 ， 为 20 世 纪 60 年 代 就 被 遗弃 的 感知 器 网 络 开辟 了 一 个 
新 篇 草 。 使 文 持 癌 量 机 成 为 功能 强大 的 分 类 器 ， 并 出 现在 每 个 神经 网 络 











工作 者 工具 包 中 的 ， 是 “内 核 技 巧 ”(kernel trick) ， 这 是 一 种 数学 转 
换 ， 相 当 于 将 数据 从 其 采样 空间 重新 映射 到 使 其 更 容易 被 分 离 的 超 空 

间 。 托 马 索 : 波 吉 奥 开发 了 一 种 名 为 *HMAX” 的 分 级 网 络 ， 可 以 对 有 限 

数量 的 对 象 进行 分 类 。 节 这 表明 ， 网 络 的 性 能 会 随 着 其 深度 的 增加 而 
提高 。 

在 21 世 纪 的 头 几 年 里 ， 图 形 模型 被 开发 出 来 ， 并 与 被 称 为 “ 贝 叶 斯 
网 络 ”(Bayes networks) 的 丰富 的 概率 模型 相 结合 ， 后 者 是 基于 18 世 纪 
英国 数学 家 托马斯 : 贝 叶 斯 (Thomas Bayes) 提出 的 一 个 定理 ， 该 定理 
允许 使 用 新 的 证 据 来 更 新 先前 的 信念 。 加 州 大 学 洛杉矶 分 校 的 朱 迪 亚 : 
珀 尔 ， 在 早 些 时 候 曾 将 基于 贝 叶 斯 分 析 的 “信念 网 络 ”(belief 
networks) [3L 引 入 人 工 智能 ， 通 过 开发 能 够 利用 数据 在 网 络 中 学 习 概 率 
的 方法 ， 对 贝 叶 斯 分 析 进 行 了 加 强 和 扩展 。 这 些 网 络 以 及 其 他 网 络 的 算 
法 为 机 器 学 习 研 究 人 员 打 造 出 了 强大 的 工具 。 


随 着 计算 机 的 处 理 能 力 继续 呈 指 数 增长 ， 训 练 更 大 规模 的 网 络 成 为 
可 能 。 大 家 曾 普 裔 认为 ， 具 有 更 多 隐藏 单元 、 更 宽 的 神经 网 络 ， 比 具有 
更 多 层 数 、 更 深 的 网 络 的 效果 更 好 ， 但 是 对 于 逐 层 训练 的 网 络 来 说 并 非 
如 此 ， 隐 并 且 误 差 梯度 的 消失 问题 (the vanishing error gradient 
problem) 被 发 现 减 慢 了 输入 层 附近 的 学 习 速度 。 辐 然而 ， 当 这 个 问题 
最 终 被 克服 的 时 候 ， 我 们 已 经 可 以 对 深度 反 辐 传播 网 络 进行 训练 了 ， 而 
且 该 网 络 在 基准 测试 中 表现 得 更 好 。[ 印 随 着 深度 反 向 传播 网 络 开始 在 
计算 机 视觉 领域 挑战 传统 方法 ，2012 年 的 NIPS 大 会 上 出 现 了 这 样 一 句 
ih: “神经 信息 处 理 系统 ” 里 的 “神经 ”又 回来 了 。 

在 20 世 纪 的 最 后 10 年 以 及 21 世 纪 前 10 年 的 计算 机 视觉 领域 ， 在 识别 
图 像 中 的 对 象 方面 取得 的 稳步 进展 ， 使 得 基准 测试 (用 于 比较 不 同方 
法 ) 的 性 能 每 年 能 提高 百 分 之 零 点 几 。 方 法 改进 的 速度 十 分 缓慢 ， 这 是 
因为 每 个 新 类 别 的 对 象 ， 都 需要 有 关 专 家 对 能 够 将 它们 与 其 他 对 象 区 分 
开 来 所 需 的 与 姿态 无 关 的 特征 进行 对 别 。 随 后 ， 在 2012 年 ， 杰 弗 里 . 注 
顿 和 他 的 两 名 学 生 艾 力克 斯 :元 里 泽 夫 斯 其 “(Alex Krizhevsky) 和 伊利 好 





























: 苏 特 斯 科 娃 向 NIPS 会 议 提交 了 一 篇 论文 ， 关 于 使 用 深度 学 习 训 练 
AlexNet 识 别 图 像 中 的 对 象 ，AlexNet 是 本 章 要 重点 讨论 的 深度 卷 积 区 
络 。 甘 以 拥有 22 000 多 个 类 别 ， 超 过 1 500 万 个 标记 过 的 高 分 辩 率 图 像 
的 ImageNet 数 据 库 作 为 基准 ，AlexNet 史 无 前 例 地 将 识别 错误 率 降低 到 
了 18%。 击 这 次 性 能 上 的 飞跃 在 计算 机 视觉 社区 中 掀起 了 一 股 冲击 波 ， 
加 速 推动 了 更 大 规模 网 络 的 发 展 ， 现 在 这 些 网 络 几 乎 已 经 达到 了 人 类 的 
水 平 。 到 2015 年 ，ImageNet 数 据 库 的 错误 率 已 降 至 3.6%。 地 当时 还 在 
微软 研究 院 的 何 恺 明 及 其 同事 使 用 的 低 错 误 率 深度 学 习 网 络 ， 在 许多 方 
面 都 与 视觉 皮层 十 分 相似 ; 这 类 网 络 由 杨 立 昆 最 早 提 出 ， 并 最 初 把 它 命 
名 为 “Le Net". 

20 世 纪 80 年 代 ， 杰 弗 里 . 泣 顿 和 我 第 一 次 见 到 这 个 法 国学 生 杨 立 昆 
〈( 见 图 9-1， 右 ) 。 他 9 岁 时 ， 就 深 受 1968 年 史诗 级 的 科 约 电影 《2001 太 
空 漫游 》 (2001: A Space Odyssey) 中 的 任务 计算 机 HAL 9000 的 司 发 ， 
想 要 开发 人 工 智能 。 他 曾 独 立 发 明了 反问 传播 误差 算法 的 一 种 版 本 ， 并 
记录 在 他 1987 年 的 博士 论文 中 ， 卫 Qj 之 后 他 就 搬 到 多 伦 多 ， 加 入 了 杰 理 
里 的 团队 。 后 来 ， 他 转 去 了 美国 电话 电报 公司 AT&T) 在 新 泽 西 州 霍 
WHER (Holmdel 的 贝尔 实验 室 ， 在 那里 他 创造 了 一 个 可 以 读 取 信件 
上 的 手写 邮政 编码 的 网 络 ， 采 用 修订 的 美国 国家 标准 与 技术 研究 院 
(Modified National Institute of Standards and Technology， 人 简称 MNIST) 
数据 库 作为 一 种 标记 数据 基准 。 每 天 有 数 百 万 封 信件 需要 递送 到 信箱 
里 ;而 今天 ， 这 个 过 程 是 完全 自动 化 的 。 同 样 的 技术 也 可 以 用 来 自动 读 
取 ATM 机 上 银行 文 票 的 金 氢 。 有 趣 的 是 ， 最 难 的 部 分 其 实 是 查找 文 楷 
上 数字 的 位 置 ， 因 为 每 张 文 票 都 有 不 同 的 格式 。 早 在 20 世 纪 80 年 代 ， 杨 
立 昆 束 显露 出 了 证 明 原 理 〈 学 者 们 擅长 的 事情 并 将 之 应 用 在 现实 世界 
中 的 非凡 天 赋 。 后 者 要 求实 际 产 品 必须 经 过 严格 的 测试 ， 且 表现 稳健 。 
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图 9-1 杰 弗 里 。 辛 顿 和 杨 立 昆 是 深度 学 习 领 域 的 大 师 。 这 张 照 片 是 2000 年 左右 在 加 拿 大 高 等 研 
究 院 的 神经 计算 和 自 适 应 感知 项 目 会 议 上 拍摄 的 ， 该 项 目 是 深度 学 习 领 域 的 多 化 器 。 图 片 来 
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杨 立 昆 在 2003 年 去 了 纽约 大 学 后 ， 仍 继续 开发 他 的 视觉 网 络 ， 现 在 
被 称 为 卷 积 网 络 (ConvNet) 〈 见 图 9-2) 。 这 个 网 络 的 基本 结构 是 基于 
卷 积 的 ， 卷 积 可 以 被 想象 成 一 个 小 的 滑动 滤波 器 ， 在 滑 过 整 张 图 像 的 过 
程 中 创建 一 个 特征 层 。 例 如 ， 过 滤器 可 以 是 一 个 定向 边缘 检测 器 ， 就 像 
第 5 章 中 介绍 的 那样 ， 只 有 当 窗 口 对 准 图 像 中 具有 正确 方向 或 纹理 的 对 
象 的 边缘 时 ， 才 会 产生 大 数值 输出 。 尽 管 第 一 层 上 的 窗口 只 是 图 像 中 的 
一 小 块 区 域 ， 但 由 于 可 以 有 多 个 滤波 器 ， 因 此 在 每 个 图 块 中 都 能 得 到 许 
多 特征 信息 。 第 一 层 中 与 图 像 卷 积 的 滤波 器 ， 与 大 卫 : 休 伯 尔 和 托 斯 坦 : 
威 泽 尔 在 初级 视觉 皮层 中 发 现 的 “简单 细胞 类似 〈 见 图 9-3) . HHE 














高 层次 的 滤波 器 则 对 更 复杂 的 特征 做 出 响应 。L3 在 卷 积 网 络 的 早期 版 
本 中 ， 每 个 滤波 器 的 输出 都 要 通过 一 个 非 线 性 的 Sigmoid 函 数 〈 输 出 从 0 
平稳 地 增加 到 1) ， 这 样 可 以 抑制 弱 激活 单元 的 输出 《见方 框 7.2 中 的 

Sigmoid 函 数 ) 。 第 二 层 接收 来 自 第 一 层 的 输入 ， 第 二 层 的 窗口 覆盖 了 
更 大 的 视野 区 域 ， 这 样 经 过 多 层 之 后 ， 就 会 存在 一 些 能 接收 整个 图 像 输 
入 的 单元 。 这 个 最 顶层 就 类 似 于 视觉 层级 的 顶层 ， 在 灵 长 类 动物 中 被 称 
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元 被 送 入 分 类 层 ， 与 其 中 的 所 有 分 类 单元 连接 ， 再 采用 反 向 传播 误差 的 
方式 训练 整个 网 络 ， 对 图 像 中 的 对 象 进行 分 类 。 
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图 9-2 视觉 皮层 与 卷 积 网 络 在 图 像 对 象 识 别 上 的 比较 。 (LA) (a, b) 视觉 皮层 中 的 层级 结 
构 ， 从 视网膜 输入 到 初级 视觉 皮层 (V1) ， 经 过 丘脑 (RGC, LGN) 2] Feet KA (PIT, CIT, 
AIT) ， 展 示 了 视觉 皮层 区 域 和 卷 积 网 络 中 层次 的 对 应 关系 。 (CFA) (ce) 左 侧 图 像 作为 输入 
映射 到 第 一 个 卷 积 层 ， 后 者 由 几 个 特征 平面 组 成 ， 每 个 特征 平面 代表 一 个 滤波 器 ， 类 似 在 视觉 
皮层 中 发 现 的 定向 简单 单元 。 这 些 滤 波 器 的 输出 经 过 阅 值 处 理 并 汇集 到 第 一 层 ， 再 进行 归 一 化 
处 理 ， 以 便 在 小 块 区 域 中 产生 不 变 的 响应 ， 类 似 于 视觉 皮层 中 的 复杂 细胞 CAPA: 线性 一 
非 线性 层 中 的 操作 ) 。 以 上 操作 在 网 络 的 每 个 卷 积 层 上 重复 。 输 出 层 与 来 自 上 一 个 卷 积 层 的 全 
部 输入 具有 全 面 的 连接 (每 个 输出 单元 都 有 上 一 层 全 部 单元 的 输入 ) 。 图 片 来 源 : Yamins and 
DiCarlo, “Using Goal-Driven Deep Learning Models to Understand Sensory Cortex” , 
figure 1. 





图 9-3 卷 积 网 络 第 一 层 的 滤波 器 。 每 个 滤波 器 都 作用 于 视野 中 的 一 小 块 图 像 区 域 。 顶 部 三 排 中 
滤波 器 的 优选 刺激 像 视 觉 皮层 中 的 简单 细胞 一 样 具 有 定向 性 。 底 部 三 排 显 示 的 优选 刺激 经 过 了 
扩展 ， 并 具有 复杂 的 形状 。 图 片 来 源 : Krizhevsky, Sutskever and Hinton, “ImageNet 
Classication with Deep Convolutional Neural Networks" , figure 3. 





卷 积 网 络 多 年 来 一 直 在 经 历 许 多 渐进 式 改进 。 一 个 重要 的 补充 ， 是 
将 一 个 区 域 上 的 每 个 特征 聚合 起 来 ， 叫 作 “ 池 化 ”(pooling) 。 这 种 操作 
提供 了 一 种 平移 不 变性 (translation invariance) 的 量度 ， 类 似 于 由 休 伯 
尔 和 威 泽 尔 在 初级 视觉 皮层 中 发 现 的 复杂 细胞 ， 能 够 通过 一 个 图 块 对 整 
个 视野 中 相同 方 癌 的 线 做 出 啊 应 。 另 一 个 有 用 的 操作 是 增益 归 一 化 
(gain normalization) ， 就 是 调整 输入 的 放大 倍数 ， 使 每 个 单元 都 在 其 
操作 范围 内 工作 ， 在 皮层 中 是 通过 反馈 抑制 〈feedback inhibition) 实现 
的 。Sigmoid 输 出 函数 也 被 线性 整流 函数 (rectified linear units， 简 称 
ReLUs) 取代 。 在 输入 达到 一 个 病 值 之 前 这 些 单 元 的 输出 都 为 零 ， 超 过 
闵 值 之 后 则 输出 和 输入 呈 线 性 增长 。 该 操作 的 优点 在 于 : RFE HC 
元 被 有 效 地 排除 在 网 络 外 ， 这 更 接近 真实 神经 元 中 国 值 的 作用 。 


卷 积 网 络 的 每 一 个 性 能 的 改进 ， 其 背后 都 有 一 个 工程 师 可 以 理解 的 
计算 理由 。 但 有 了 这 些 变化 ， 它 越 来 越 接近 20 世 纪 60 年 代 我 们 所 了 解 的 
视 沉 上层 的 体系 结构 ， 尽 管 当 时 我 们 只 能 去 猜测 简单 和 复杂 单元 的 功能 
是 什么 ， 或 者 层级 结构 顶部 的 分 布 式 表征 的 存在 意味 着 什么 。 这 说 明了 
生物 学 与 深度 学 习 之 间 存 在 相 得 蔡 彰 的 共生 关系 的 潜力 。 

















当 深 度 学 习 过 到 视觉 层级 结构 


加 州 大 学 圣迭戈 分 校 的 帕 特 里 夏 : 丘 奇 兰 德 不 仪 是 心灵 哲学 家 ， 同 
时 也 研究 神经 哲学 。 卫 引 知 识 最 终 取决 于 大 脑 如 何 表 达 知 识 的 说 法 ， 显 
然 没 有 人 阻止 哲学 家 认为 知识 是 独立 于 世界 而 存在 的 一 种 东西 ， 用 伊 曼 
SR Bete (Immanuel ” Kant) 的话 来 说 ， 就 是 “Ding an sich” (WH 
身 ) 。 但 同样 清楚 的 是 ， 如 果 我 们 〈 和 其 他 动物 一 样 ) 要 在 现实 世界 中 
生存 ， 背 景 知识 就 是 必 不 可 少 的 。 经 过 训练 的 多 层 神经 网 络 的 隐藏 单元 
之 间 的 活动 模式 ， 与 被 逐次 记录 下 的 大 量 生物 神经 之 间 的 活动 模式 存在 
显 音 的 相似 性 。 受 到 这 种 相似 性 的 驱动 ， 骨 特 里 复 和 我 在 1992 年 编写 了 
《计算 脑 》 (The Computational Brain) 一 书 ， 为 基于 大 量 神经 元 的 神 
经 科学 研究 开发 了 一 个 概念 框架 。L4 (该 书 现在 已 经 出 到 第 二 版 了 ， 
如 果 你 想 更 多 地 了 解 大 脑 式 的 运算 ， 这 会 是 一 本 很 好 的 入 门 参考 。) A 
省 理工 学 院 的 詹姆斯 : 狄 卡 罗 (James DiCarlo) 最 近 比 较 了 猴子 视觉 皮 
层 层 级 结构 中 不 同 神经 元 和 深度 学 习 神 经 网 络 中 的 单元 ， 训 练 它们 识别 
相同 图 片 中 的 对 象 ， 分 别 观 察 它们 的 响应 〈 见 图 9-2) 。 呈 中 他 得 出 结 
ib: 深度 学 习 网 络 中 每 层 神 经 元 的 统计 特性 ， 与 皮层 层级 结构 中 神经 元 
的 统计 特性 非常 接近 。 

深度 学 习 网 络 中 的 单元 与 猴子 视 沉 皮层 中 神经 元 性 能 存在 相似 性 ， 
但 其 原因 仍然 有 竺 研究， 尤其 是 考虑 到 猴子 的 大 脑 不 太 可 能 使 用 反问 传 
播 方式 来 进行 学 习 。 反 辣 传 播 需 要 将 详细 的 错误 信号 反馈 给 神经 网 络 每 
层 中 的 每 个 神经 元 ， 其 精度 比 生物 神经 网 络 中 已 知 反 人 馈 连 接 的 精度 要 高 
得 多 。 但 其 他 学 习 算 法 在 生物 学 上 似乎 更 合理 ， 例 如 玻 尔 效 曼 机 学 习 算 
法 ， 该 算法 使 用 了 已 经 在 皮层 中 被 发 现 的 赫 布 突 触 可 塑性 。 这 引出 了 一 
个 有 趣 的 问题 ， 是 否 存 在 一 种 深度 学 习 的 数学 理论 ， 能 够 适用 于 一 大 类 
学 习 算 法 (包括 皮层 中 的 那些 ) We? 在 第 7 章 中 ， 我 提 到 了 对 视觉 层级 
结构 的 上 层 分 类 表面 的 分 析 ， 其 决策 表面 比 更 低层 级 的 表面 更 平坦 。 对 
决策 表面 的 几何 分 析 可 能 会 引出 对 深度 学 习 网 络 和 大 脑 更 深入 的 数学 理 












































解 。 

深度 学 习 神 经 网 络 的 一 个 优点 是 ， 我 们 可 以 从 网 络 中 的 每 个 单元 提 
取 “ 记 录 ， 并 人 退 踪 信 息 流 从 一 层 到 为 一 层 的 转变 。 然 后 可 以 将 分 析 这 种 
网 络 的 策略 用 于 分 析 大 脑 中 的 神经 元 。 关 于 技术 的 一 个 奇妙 之 处 在 于 ， 
技术 背后 通常 都 有 一 个 很 好 的 解释 ， 并 且 有 强烈 的 动机 来 得 到 这 种 解 
释 。 第 一 台 蒸 汽 友 动机 是 由 工程 师 根据 他 们 的 直觉 建造 的 ， 解释 友 动机 
如 何 工 作 的 热力 学 理论 随后 出 现 ， 并 且 帮 助 提 升 了 发 动机 的 效率 。 物 理 
学 家 和 数学 家 对 深度 学 习 网 络 的 分 析 也 正在 顺利 进行 着 。 




















有 工作 记忆 的 神经 网 络 


自 20 世 纪 60 年 代 以 来 ， 神 经 科学 已 经 走 过 了 漫长 的 道路 ， 从 我 们 目 
前 对 大 脑 的 了 解 中 可 以 获得 很 多 东西 。1990 年 ， 帕 特 里 夏 : 高 德 曼 - 拉 奇 
35 (Patricia Goldman-Rakic) 训练 了 一 只 猴子 来 记 住 一 个 地 点 ， 作 为 提 
示 ， 该 地 点 会 短暂 地 被 一 蔓 灯 照 亮 ， 她 还 训练 这 只 猴子 在 一 段 时 间 的 延 
迟 之 后 ， 把 眼睛 移动 到 被 记 住 的 地 点 。 卫 8 在 记录 了 猴子 前 额 叶 皮层 的 
活动 后 ， 她 在 报告 中 提 到 ， 一 些 最 初 对 提示 做 出 回应 的 神经 元 在 延迟 期 
间 仍 然 保 持 活 跃 状态 。 心 理学 家 把 人 类 的 这 种 活动 称 为 “工作 记忆 ”， 也 
正 因 为 有 了 工作 记忆 ， 我 们 在 执行 任务 《比如 拨打 电话 号 全) 时 ， 能 够 
记 住 7+2 项 内 容 。 


传统 的 前 馈 网 络 将 输入 传 到 网 络 中 ， 一 次 传播 一 层 网 络 。 结 合 工作 
记忆 ， 可 以 使 后 续 的 输入 与 之 前 的 输入 在 网 络 中 留 下 的 痕迹 进行 交互 。 
例如 ， 把 法 语句 子 翻译 成 英文 时 ， 网 络 中 的 第 一 个 法 语 单词 会 影响 后 续 
英语 单词 的 顺序 。 在 网 络 中 实现 工作 记忆 的 最 简单 方法 ， 是 添加 人 类 皮 
层 中 常见 的 循环 连接 。 神 经 网 络 中 某 一 层 内 的 循环 连接 和 之 前 那些 层 的 
反馈 连接 ， 使 得 输入 的 时 间 序 列 可 以 在 时 间 上 整合 起 来 。 这 种 网 络 在 20 
世纪 80 年 代 被 探索 并 广泛 应 用 于 语音 识别 。 卫 匀 在 实践 中 ， 它 在 具有 短 


























程 依赖 性 的 输入 方面 效果 很 好 ， 但 当 输 入 之 间 的 时 间 间 隔 很 长 ， 输 入 的 
影响 会 随 痢 时 间 的 推移 发 生 衰减 ， 网 络 性 能 就 会 变 差 。 

1997 年 ， 赛 普 . 霍 元 莱特 (Sepp —Hochreiter) 和 尤 尔 根 : 施 密 德 胡 博 
(Jürgen Schmidhuber) 找到 了 一 种 方法 来 克服 衰变 问题 ， 他 们 称 之 
为 “长 短期 记忆 ”(long short-term memory， 简 称 LSTM) . HEREA 
下 ， 长 短期 记忆 会 传递 原始 信息 ， 而 不 会 发 生 衰减 〈 这 就 是 猴子 前 额 叶 
皮层 的 延迟 期 中 发 生 的 事情 ) ， 并 且 它 也 有 一 个 复杂 的 方案 来 决定 如 何 
将 新 的 输入 信息 与 日 信息 整合 。 于 是 ， 远 程 依赖 关系 可 以 被 选择 性 地 保 
留 。 神 经 网 络 中 这 种 工作 记忆 版 本 沉寂 了 长 达 20 年 之 入， 直到 它 在 深度 
学 习 网 络 中 再 次 被 唤醒 和 实现 。 长 短期 记忆 和 深度 学 习 的 结合 在 许多 依 
赖 输入 输出 序列 的 领域 都 取得 了 令 人 瞩目 的 成 功 ， 例 如 电影 、 音 乐 、 动 
作 和 语言 。 

施 密 德 胡 博 是 位 于 瑞士 南部 提 梁 诺 州 (Ticino〉 曼 诺 小 镇 的 Dalle 
Molle 人 工 智 能 研究 所 的 联合 主任 。 该 小 镇 靠近 阿尔 捍 斯 山 ， 周 围 有 一 
些 绝 佳 的 徒步 地 点 。 呈 站 神经 网 络 领 域 的 这 位 颇具 创造 性 、 特 立 独 行 
的 * 罗 德 尼 . 丹 泽 菲尔德 " 攻 电 相信 他 的 创造 力 并 没有 得 到 足够 的 赞誉 。 
此 ， 在 蒙特 利 尔 举办 的 2015 年 NIPS 会 议 的 一 次 小 组 讨论 会 上 ， 他 再 次 问 
与 会 人 员 介绍 了 自己 , “我 ， 施 密 德 衣 博 ， 又 回来 了 ”。 而 在 巴塞 罗 那 举 
行 的 2016 年 NIPS 大 会 上 ， 他 因 培 训 宣 讲 人 没有 对 上 自己 的 想法 给 予 足 够 的 
关注 ， 而 打 乱 对 方 的 演讲 长 达 5 分 钟 。 

2015 年 ，Kelvin Xu 及 其 同事 在 用 一 个 深度 学 习 网 络 识别 图 像 中 对 象 

的 同时 ， 还 连接 了 一 个 长 短期 记忆 循环 网 络 来 标注 图 片 。 使 用 来 自 深 度 
学 习 网 络 第 一 过 识别 的 场景 中 所 有 对 象 作 为 输入 ， 他 们 训练 长 短期 记忆 
循环 网 络 输出 一 串 英 文 单词 ， 能 够 形容 一 个 标注 中 的 场景 ( 见 图 9- 
4) 。 他 们 还 训练 了 长 短期 记忆 网 络 来 识别 图 像 中 的 位 置 ， 使 其 对 应 于 
标注 中 的 每 个 单词 。 世 也 该 应 用 令 人 印象 深刻 的 地 方 在 于 ， 长 短期 记忆 
网 络 从 未 被 训练 来 理解 标注 中 句子 的 含义 ， 只 是 根据 图 像 中 的 对 象 及 其 
位 置 输出 一 个 语法 正确 的 单词 囊 。 再 加 上 第 8 章 里 早期 的 话语 网 络 示 
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却 不 得 而 知 。 通 过 分 析 长 短期 记忆 网 络 也 许 会 引出 一 种 新 的 语言 理论 ， 
它 将 曾 明 网 络 的 工作 原理 和 上 自然 语言 的 性 质 。 





生成 式 对 抗 网 络 


在 第 7 章 中 ， 玻 尔 北 曼 机 被 当 作 一 个 生成 模型 进行 了 介绍 ， 当 输出 
被 钳 制 到 一 个 它 己 训练 识别 的 类 型 中 ， 并 且 其 活动 模式 问 下 渗透 到 输入 
层 时 ， 束 可 以 产生 新 的 输入 样本 。 伊 恩 . 古 德 费 洛 〈Ian Goodfellow) 、 
APE KEA (Yoshua Bengio) 和 他 们 在 蒙特 利 尔 大 学 的 同事 们 表 
示 ， 可 以 训练 前 馈 网 络 ， 在 对 抗 的 背景 (adversarial context) 下 生成 更 
好 的 样本 。 上 一 个 生成 卷 积 网 络 可 以 通过 尝试 欺骗 另 一 个 卷 积 神经 网 
络 来 训练 生成 优质 的 图 像样 本 ， 后 者 必须 决定 一 个 输入 的 图 像 是 真实 的 
还 是 虚假 的 。 生 成 网 络 的 输出 被 用 来 作为 一 个 经 过 训练 的 判别 卷 积 网 络 

(discriminative convolutional network) 的 输入 ， 后 者 只 给 出 一 个 单一 的 

输出 : 如 果 输 入 是 真实 图 像 ， 束 返回 1， 人 否则 返回 0。 这 两 个 网 络 会 相互 
竞争 。 生 成 网 络 试图 增加 判别 网 络 的 错误 率 ， 而 判别 网 络 则 试图 降低 自 
吴 的 错误 率 。 由 这 两 个 目标 之 间 的 紧张 关系 产生 的 网 像 ， 拥 有 令 人 难以 
置信 的 照片 级 的 真实 感 〈 见 图 9-5) . [23] 
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1. 输入 图 像 ” 2. 卷 积 特征 提取 3. 注意 力 在 图 像 上 的 4. 逐 字 人 生成 
RNN 


A bird flying over a body of water 












(一 个 女人 在 公园 里 扔 飞盘 。) (一 只 狗 站 在 地 板 上 。) 


A woman is throwing a frisbee in a park, A dog is standing on a hardwood floor. 





A little girl sitting on a bed with A group of people sitting on a boat 
a teddy bear. in the water, 
(一 个 小 女孩 拿 着 泰 迪 熊 坐 在 床上 。) ( 一群 人 坐 在 船上 。) 


图 9-4 深度 学 习 为 图 片 做 标注 。 顶 部 的 一 组 图 片 说 明了 分 析 照 片 的 步 又。ConvNet (CNN) 在 第 
一 步 中 标记 了 照片 中 的 对 象 ， 并 将 其 传递 给 循环 神经 网 络 (RNN) 。RNN 被 训练 输出 适当 的 英文 
单词 串 。 底 部 的 四 组 图 片 则 阐明 了 进一步 细 化 的 过 程 ， 即 使 用 注意 力 ( 和 白色 云 ) 来 表示 照片 中 
单词 的 指示 对 象 。 顶 图 来 源 : M. |. Jordan and T. M. Mitchell, “Machine learning: 

Trends, Perspectives, and Prospects, " Science349, no. 6245(2015): 255 -260， 图 2. 底 


AAR: Xu et al., “Show, Attend and Tell,” 2015, rev. 2016, figure and 
3, https: //arxiv. org/pdf/1502. 03044. pdf, Coutesy of Kelvin Xu. 


别 忘 了 ， 这 些 生成 的 图 像 是 合成 的 ， 它 们 中 的 对 象 并 不 存在 。 它 们 
是 训练 集中 未 标记 图 像 的 泛 化 版 本 。 请 注意 ， 生 成 式 对 抗 网 络 是 无 监督 
的 ， 这 使 得 它们 可 以 使 用 无 限 的 数据 。 这 些 网 络 还 有 许多 其 他 应 用 ， 包 
括 清除 具有 超 高 分 辨 率 的 星系 天 文 图 片上 4 中 的 噪声 ， 以 及 学 习 表达 富 
有 情感 的 言语 。 攻 > 

通过 慢 慢 地 改变 生成 式 网 络 的 输入 向 量 ， 有 可 能 逐渐 改变 图 像 ， 使 
得 部 件 或 零碎 物品 〈 如 窗户 ) 逐渐 显现 或 变 成 其 他 物体 〈 如 橱 
柜 ) 。[29j 更 值得 关注 的 是 ， 有 可 能 通过 添加 和 减 去 表示 网 络 状态 的 向 
量 以 获得 图 像 中 对 象 的 混合 效果 ， 如 图 9-6 所 示 。 这 些 实验 的 意义 在 
F, 生成 网 络 对 图 像 中 空间 的 表征 ， 正 如 我 们 如 何 描述 场景 的 各 个 组 成 

部 分 。 这 项 技术 正在 迅速 发 展 ， 其 下 一 个 前 沿 领域 是 生成 逼真 的 电影 
通过 训练 一 个 反复 演绎 兴 的 生成 式 对 抗 网 络 ， 与 类 似 玛丽 莲 : 梦 SBE GORE RY 
演员 参 演 的 电影 进行 对 比 ， 应 该 有 可 能 创造 出 已 过 世 的 演员 出 演 的 新 作 
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图 9-5 生成 式 对 抗 网 络 (GAN) 。 顶 部 的 示意 图 展示 了 一 个 卷 积 网 络 ， 用 于 生成 一 组 样本 图 像 ， 
经 过 训练 后 可 以 欺骗 判别 卷 积 网 络 。 左 边 的 输入 是 100 维 的 随机 选取 的 连续 值 向 量 ， 用 来 生成 不 
AMAR: 输入 的 向 量 随后 激活 空间 尺度 逐 层 变 大 的 滤波 器 层 。 下 方 的 图 显示 了 通过 训练 来 自 
单个 类 别 照 片 的 生成 式 对 抗 网络 产 生 的 样本 图 像 。 顶 图 来 源 : A. Radford, L. Metz, and S. 
Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative 
Adversarial Networks, ”图 1，arXiv:1511. 06434, 

https://arxiv. org/pdf/1511. 06434. pdf， 由 Soumiyh Chintala 提 供 ; 底 图 来 源 : A. Nguyen, 
J. Yosinski, Y. Bengio, A.Dosovitskiy, and J. Clune, “Plug & Play Generative 
Networks: Conditional Iterative Generation of Images in Latent Space," figurel, 
https: //arxiv. org/pdf/1612. 00005. pdf， 由 Ahn Nguyen 提 供 。 





戴 着 眼镜 的 男人 BA 





戴 着 眼镜 的 女人 


图 9-6 生成 式 对抗 网 络 中 的 向 量 算 法 。 用 面部 图 片 训练 的 生成 式 网 络 的 输入 混合 后 ， 产 生 了 输 
b (AA) ， 然 后 通过 添加 或 减 去 选 定 的 输入 向 量 进行 输出 ， 就 创建 出 了 混合 后 的 图 像 ( 右 
图 ) 。 因 为 混合 是 在 最 高 的 表征 层 完 成 的 ， 所 以 部 位 和 姿势 是 无 颖 接合 的 ， 并 不 会 经 过 变形 过 
程 中 那样 的 平均 处 理 。 图 像 改 编 自 : A. Radford, L.Metz, and S. Chintala, “Unsupervised 
Representation Learning with Deep Convolutional Generative Adversarial Networks, " 
fifigure7, arXiv:1511. 06434, https://arxiv. org/pdf/1511. 06434/. 


这 是 米兰 的 时 装 周 ， 衣 着 光鲜 的 模特 们 带 着 超凡 脱俗 的 表情 在 TIT 台 
上 走秀 〈 见 图 9-7) 。 时 尚 界 正在 经 历 瞳 潮涌 动 : “很 多 工作 正在 消 
K, WAREM REJE (Silvia Venturini Fendi) 在 她 的 时 装 秀 开 
场 前 说 道 ,，“ 机 器 人 会 承担 旧 的 工作 ， 但 它们 唯一 无 法 取代 的 就 是 我 们 
的 创造 力 和 思维 。””[2 妆 现在 想象 一 下 经 过 训练 的 新 一 代 对 抗 网 络 ， 它 
们 可 以 生产 新 款式 和 高 级 时 装 ， 式 样 几乎 无 穷 无 尽 。 时 尚 界 可 能 正 处 于 





一 个 新 时 代 的 边缘 ， 而 许多 其 他 依赖 创意 的 行业 也 面临 着 相同 的 处 境 。 





图 9-7 2018 年 米兰 的 乔治 。 阿 玛 尼 春 夏 男 装 秀 。 


应 对 现实 社会 的 复杂 性 


当前 的 大 多 数学 习 算法 是 在 25 年 前 开发 的 ， 为 什么 它们 需要 那么 长 
的 时 间 才 能 对 现实 世界 产生 影响 呢 ? 20 世 纪 80 年 代 的 研究 人 员 使 用 的 计 
算 机 和 标记 数据 ， 只 能 证 明 玩 具 问 题 的 原理 。 上 尽管 取得 了 一 些 似 乎 鼎 有 
前 景 的 成 果 ， 但 我 们 并 不 知道 网 络 学 习 及 其 性 能 如 何 随 大 单元 和 连接 数 
量 的 增加 而 增强 ， 以 适应 现实 世界 问题 的 复杂 性 。 人 工 智 能 中 的 大 多 数 
算法 缩放 性 很 关 ， 从 未 跳出 解决 玩具 级 别 问 题 的 范畴 。 我 们 现在 知道 ， 
神经 网 络 学 习 的 缩放 性 很 好 ， 随 着 网 络 规模 和 层 数 的 不 断 增 加 ， 其 性 能 
也 在 不 断 增强 。 特 别 是 反 回 传播 扩 术 ， 它 的 缩放 性 非 第 好 。 


我 们 应 该 对 此 感到 惊讶 吗 ? 大 脑 挛 层 是 哺乳 动物 的 一 项 发 明 ， 在 灵 
长 类 动物 ， 尤 其 是 人 类 中 得 到 了 高 度 发 展 。 随 独 它 的 扩展 ， 更 多 的 功能 








慢 慢 出 现 ， 并 且 更 多 层次 被 添加 到 了 关联 区 域 ， 以 实现 更 高 阶 的 表征 。 
很 少 有 复杂 系统 可 以 实现 如 此 高 级 的 缩放 。 互 联网 是 为 数 不 多 的 已 经 被 
扩大 了 100 万 倍 的 工程 系统 之 一 。 一 旦 通信 数据 包 协 议 建立 起 来 ， 互 联 
网 就 会 开始 进化 ， 正 如 DNA 中 的 遗传 密码 使 细胞 演化 成 为 可 能 一 样 。 


使 用 相同 的 一 组 数据 训练 许多 深度 学 习 网 络 ， 会 导致 生成 大 量 不 同 
的 网 络 ， 它 们 都 具有 大 致 相同 的 平均 性 能 水 平 。 我 们 想 知道 的 是 ， 所 有 
这 些 同等 优秀 的 网 络 有 哪些 共同 之 处 ， 而 对 单个 网 络 进行 分 析 并 不 能 揭 
示 这 一 点 。 理 解 深 度 学 习 原理 的 另 一 种 方法 是 进一步 探索 学 习 算 法 的 空 
间 ; 我 们 只 在 所 有 学 习 算法 的 空间 中 对 几 个 位 置 进行 了 抽样 尝试 。 从 更 
广泛 的 探索 中 可 能 会 出 现 一 种 学 习 计算 理论 ， 该 理论 与 其 他 科学 领域 的 
理论 一 样 深奥 ， 此 引 可 能 为 从 自然 界 中 发 现 的 学 习 算 法 提供 更 多 的 解 


RE. 


蒙特 利 尔 大 学 的 约 书 亚 .本 吉 奥 上 站 〈 见 图 9-8) ， 和 杨 立 昆 一 起 ， 
接 蔡 杰 弗 里 . 注 顿 ， 成 为 CIFAR 神 经 计算 和 NCAP 项 目的 主任 ， 该 项 目 在 
通过 十 年 评估 后 更 名 为 “机 器 学 习 和 大 脑 学 习 ” 项 目 CLeaming in 
Machines and Brains) 。 约 书 亚 率 领 蒙特 利 尔 大 学 的 一 个 团队 ， 致 力 于 
应 用 深度 学 习 来 处 理 自然 语言 ， 这 将 成 为 “机 器 学 习 和 大 脑 学 习 ” 项 目 新 
的 研究 重点 。 在 十 多 年 的 会 议 中 ， 这 个 由 20 多 名 教师 和 研究 员 组 成 的 小 
组 开启 了 深度 学 习 的 研究 。 过 去 5 年 来 ， 深 上 度 学 习 在 过 去 难以 解决 的 许 
多 问题 上 取得 了 实质 性 进展 ， 这 些 进 展 归功 于 小 组 成 员 的 努力 ， 他 们 当 
然 只 是 一 个 更 庞大 社区 中 的 一 小 部 分 人 《将 在 第 11 章 探讨) 。 





























图 9-8 约 书 亚 。 本 吉 奥 是 CIFAR“ 机 器 学 习 和 大 脑 学 习 ” 项 目的 联合 主任 。 这 位 在 法 国 出 生 的 加 
拿 大 籍 计算 机 科学 家 ， 一 直 是 应 用 深度 学 习 处 理 自然 语言 问题 这 个 领域 的 领导 者 。 杰 弗 里 。 辛 

顿 、 杨 立 昆 和 约 书 亚 。 本 吉 奥 所 取得 的 进展 ， 为 深度 学 习 的 成 功 黄 定 了 基础 。 图 片 来 源 : AP 

亚 。 本 吉 奥 。 





尽管 深度 学 习 网 络 的 能 力 已 经 在 许多 应 用 中 得 到 了 证 明 ， 但 如 果 单 
靠 自身 ， 它 们 在 现实 世界 中 永远 都 无 法 存活 下 来 。 忆 ML 它们 受到 了 研究 
者 的 青睐 ， 后 者 为 其 提供 数据 ， 调 整 超 参 数 ， 例 如 学 习 速 度 、 层 数 和 每 
层 中 的 单元 数量 ， 以 改善 收敛 效果 ， 还 为 其 提供 了 大 量 计算 资源 。 男 一 
方面 ， 如 末 没 有 大 脑 和 喘 体 的 其 他 部 分 提供 支持 和 自主 权 ， 大 脑 皮 层 也 
无 法 在 现实 世界 中 存活 。 在 一 个 不 确定 的 世界 中 ， 这 种 支持 和 自主 权 是 
一 个 比 模式 识别 更 难 解决 的 问题 。 第 10 章 将 会 介绍 一 种 古老 的 学 习 算 
法 ， 它 通过 激励 我 们 寻求 对 自身 有 利 的 经 验 来 帮助 我 们 在 自然 界 中 生 
存 。 
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10 
奖励 学 习 


中 世纪 流传 下 来 这 样 一 个 故事 : 一 位 统治 者 为 了 感谢 发 明 国际 象棋 
的 人 ， 想 要 奖励 他 一 块 麦田 。 发 明 人 请 求 在 棋盘 的 第 一 格 放 一 粒 麦 子 ， 
第 二 格 放 两 粒 ， 第 三 格 放 四 粒 ， 依 次 类 推 ， 剩 余 每 格 都 放 前 一 格 两 倍 的 
支 了 于， 直到 放 满 64 格 的 棋盘 。 统 治 者 党 得 这 个 请 求 并 不 过 分 ， 融 同意 
了 。 但 实际 上 ， 要 满足 这 一 请 求 ， 统 治 者 不 仅 要 拿 出 他 王国 里 所 有 的 麦 
子 ， 还 要 加 上 全 世界 未 来 几 百 年 的 麦子 产量 才能 竣 够 ， 因 为 最 后 一 格 要 
放 的 麦 粒 数目 达到 了 264 (大 约 是 103) 。 岂 这 被 称 为 “指数 增长 "。 在 
国际 象棋 和 围棋 游戏 中 ， 棋 盘 不 同 布局 状态 的 增长 速度 比 这 个 故事 里 交 
子 数量 增加 的 速度 还 要 快 得 多 。 在 国际 象棋 中 ， 每 一 步 棋 平 均 都 有 35 种 
摆 法 ， 而 在 围棋 中 ， 分 支 系数 是 250， 这 就 使 得 围棋 的 指数 增长 速度 要 
快 得 多 。 


机 器 如 何 学 会 下 模 


游戏 的 好 处 惑 在 于 ， 其 规则 都 有 明确 的 定义 ， 玩 家 对 棋盘 十 分 熟 
悉 ， 决 策 也 不 像 现实 世界 中 那样 复杂 ， 但 又 不 失 挑 战 性 。1959 年 ， 在 隘 
业 数 字 计算 机 发 展 的 早期 ，IBM 的 机 器 学 习 先 驱 亚 瑟 . 赛 缕 尔 (Arthur 
Samuel) 编写 了 一 个 擅长 玩 国 际 跳棋 的 程序 ， 在 宣布 其 诞生 的 当天 ， 
IBM 的 股票 就 获得 了 巨大 的 收益 。 西 洋 跳 棋 则 相对 容易 。 蹇 比尔 的 程序 
利用 了 代价 函数 来 评估 对 局 中 不 同 布 阵 的 优 务 情 况 ， 这 一 点 跟 以 前 的 游 
戏 程序 很 相似 。 该 程序 是 在 IBM 第 一 款 真空 管 商 用 计算 机 IBM 701 上 运 
行 的 ， 它 在 一 个 方面 的 创新 令 人 印象 深刻 : 通过 跟 自 己 对 弈 ， 学 会 了 下 




















在 转 到 位 于 纽约 约克 敦 海 茨 的 IBM 托 马 斯 :J. 沃 森 研 究 中心 之 前 ， 杰 
拉 德 . 特 索 罗 在 位 于 伊利 话 伊 大 学 香 槛 分 校 的 复杂 系统 研究 中 心 ， 与 我 
一 起 训练 神经 网 络 玩 西洋 双 陆 棋 〈 见 图 10-1) 。 区 我 们 的 方法 是 ， 使 
用 专家 监督 来 训练 反 同 传播 网 络 ， 以 评估 当前 的 布局 和 可 能 的 摆 法 。 这 
种 方法 的 缺陷 在 于 ， 该 程序 永远 比 不 过 专家 ， 而 专家 的 水 平 并 未 达到 世 
界 冠 军 的 级 别 。 然 而 通过 自我 对 局 ， 网 络 可 能 会 有 更 出 色 的 表现 。 当 时 
自我 对 局 面临 的 问题 是 ， 在 比赛 结束 时 ， 唯 一 的 学 习 信 号 瓯 是 启 或 输 。 
但 是 当 一 方 获胜 时 ， 应 该 归功 于 之 前 大 干 步骤 中 的 哪些 步骤 呢 ? 这 被 称 
为 “时 域 贡献 度 分 配 问题 ”(temporal credit assignment problem) . 























图 10-1 西洋 双 陆 棋 棋 板 。 西 洋 双 陆 棋 是 一 种 通过 朝 着 终点 按 步 走 棋 来 分 出 胜 负 的 游戏 ， 红 色 棋 
子 和 黑色 棋子 的 移动 方向 相反 〈 如 箭头 所 示 ) 。 图 中 标注 了 游戏 的 起 始 位 置 。 同 时 搬出 两 个 如 
子 ， 得 到 的 两 个 数字 表示 两 个 棋子 可 以 向 前 移动 的 距离 。 


有 一 种 可 以 解决 这 种 时 域 贡 献 度 分 配 问 题 的 学 习 算 法 ， 古 由 理 得 德 


. 萨 顿 (Richard Sutton) 于 1988 年 发 明 的 。 地 他 当时 正在 与 他 的 博士 生 
导师 、 马 萨 诸 塞 大 学 阿 姆 赫 斯 特 分 校 的 安德鲁 .' 巴 托 CAndrew Barto) ， 
共同 解决 强化 学 习 领 域 中 的 问题 。 强 化 学 习 (reinforcement learning) 是 
受 动物 实验 中 的 关联 学 习 (associative learning) 所 启发 衍生 出 的 一 个 机 
器 学 习 研 究 分 支 领域 〈 见 图 10-2) 。 深 度 学 习 的 唯一 工作 是 将 输入 转换 
为 输出 。 强 化 网 络 与 之 不 同 ， 它 会 与 环境 进行 闭环 交互 ， 接 收 传感器 输 
入 ， 做 出 决定 并 采取 行动 。 强 化 学 习 的 基础 ， 是 观察 动物 怎样 通过 探索 
环境 中 的 各 种 选择 并 从 结果 中 学 习 ， 从 而 在 不 确定 的 条 件 中 解决 难题 。 
随 着 学 习 能 力 的 提高 ， 探 索 过 程 逐 渐 减 少 ， 最 终 会 直接 利用 学 习 过 程 中 
发 现 的 最 佳 策略 。 








观察 





图 10-2 强化 学 习 场 景 。 智 能 体 (agent) 通过 采取 行动 (actions) 和 进行 观察 
(observation) 来 积极 探索 环境 。 如 果 行 动 成 功 ， 执 行 器 将 得 到 奖励 (rewards) 。 该 过 程 的 
目标 ， 是 通过 学 习 怎 样 采取 行动 来 最 大 化 可 能 获得 的 奖励 。 


假设 你 必须 做 出 一 系列 决定 才能 达成 目标 。 如 果 你 已 经 知道 所 有 潜 


在 的 选择 和 它们 各 上 自 可 能 市 来 的 奖励 ， 你 就 可 以 使 用 搜索 算法 一 一 具体 
Rit, th wt HA WR (Richard Bellman) 的 动态 规划 算法 
(algorithm for dynamic programming) ， 著 即 找 出 能 最 大 化 未 来 奖励 的 
选择 集 。 但 是 随 着 可 能 的 选择 越 来 越 多 ， 问 题 的 规模 也 呈 指 数 级 增长 ， 
这 被 称 为 “ 维 数 灾难 ”(curse of dimensionality) ， 本 章 的 开头 已 经 对 其 
进行 了 说 明 。 但 是 ， 如 果 在 选择 前 没有 获得 关于 选择 结果 的 所 有 信息 ， 
你 就 要 学 会 即时 做 出 最 好 的 选择 。 这 就 是 所 谓 的 “在 线 学 习 ”(online 
learning) . 

HAW Et CULEd10-30 的 在 线 学 习 算 法 依赖 于 期 望 奖 励 和 实际 
奖励 之 间 的 差异 《见方 框 10.1) 。 在 时 间 差 分 学 习 (temporal difference 
learning) 中， 你 需要 估计 出 在 当前 状态 下 做 出 行动 有 可 能 市 来 的 长 期 
奖励 (基于 已 得 到 的 奖励 而 得 出 的 较 好 估计 〉， 以 及 下 一 个 状态 中 洪 在 
的 长 期 奖励 ， 并 将 二 者 相 比 较 。 当 前 状态 得 到 了 实际 奖励 ， 因 此 估计 会 
更 准确 。 通 过 让 之 前 的 估计 更 接近 改进 后 的 估计 ， 你 做 出 的 决定 也 会 越 
来 越 好 。 存 在 一 个 价值 网 络 ， 能 够 估算 出 棋盘 每 个 位 置 上 的 未 来 奖励 ， 
对 该 网 络 进行 的 更 新 则 被 用 于 决定 下 一 步 的 行动 。 在 你 有 足够 的 时 间 来 
探索 不 同 的 可 能 性 后 ， 时 间 差 分 算法 会 收 钱 于 最 佳 规 则 ， 指 导 如 何在 给 
定 状 态 下 做 出 决策 。 维 数 灾难 是 可 以 避免 的 ， 因 为 事实 上 ， 在 棋盘 所 有 
可 能 的 位 置 中 有 一 小 部 分 会 被 访问 ， 但 这 足以 为 新 对 局 中 类 似 的 棋盘 位 
置 制定 出 好 的 策略 。 


























图 10-3 2006 年 在 加 拿 大 埃 德 蒙 上 顿 阿 尔 伯 塔 大 学 的 理 查 德 。 萨 顿 。 他 教会 了 我 们 获取 未 来 奖励 的 
学 习 方 法 。 理 查 德 是 一 位 癌症 幸存 者 ， 他 在 强化 学 习 方 面 一 直 是 领军 人 物 ， 并 在 持续 不 断 地 开 
发 创新 型 的 算法 。 他 总 是 很 慷慨 地 和 别人 交流 ， 分 享 自己 的 见解 ， 同 领域 的 每 个 人 对 此 都 非常 
赞赏 。 他 和 安 德 曾 。 巴 托 合 著 的 书 《 强 化 学 习 导 论 》 (Reinforcement Learning: An 
Introduction) 是 该 领域 的 经 典 著 作 之 一 。 此 书 的 第 二 版 在 互联 网 上 可 以 免费 获取 。 图 片 来 
源 : 理 查 德 。 萨 顿 。 


杰 拉 德 . 特 索 罗 的 程序 名 为 “TD-Gammon”， 内 建 了 西洋 双 陆 棋 棋 盘 
和 规则 的 重要 特征 ， 但 它 并 不 知道 怎么 下 好 每 一 步 棋 。 在 学 习 的 初始 阶 
段 ， 这 些 棋 步 是 随机 的 ， 但 最 终 某 一 方 会 电 ， 并 得 到 最 终 奖 励 。 西 洋 双 
陆 棋 的 属 家 是 第 一 个 将 其 所 有 棋子 从 棋盘 上 “剔除 ?出 来 的 玩家 。 


10.1 
时 间 差分 学 习 
这 个 蜜蜂 大 脑 的 模型 能 够 选择 行动 〈 比 如 落 在 一 朱 花 上 ) ， 以 


最 大 化 未 来 所 有 的 折扣 奖励 (discounted rewards) : 








侧 抑制 


R(t)7rg4 1 *yrg-2* Jrf+3+. 
rt+1 是 在 时 间 t+1 时 的 奖励 ，0 < y« 1 是 折扣 系数 。 基 于 当前 感官 
输入 s(D 的 预测 的 未 来 奖励 是 通过 神经 元 P 计 算出 来 的 : 


pels) = wySY+ ws? 


KARE (Y). 花 东 和 蓝 色 (B) 花 条 的 传感器 输入 被 分 别 以 ww 和 
woe 加权。 位 于 时 间 t 的 奖励 预测 误差 6) 计算 方法 如 下 : 

ót7 retyPt(se) — Pr(st_1) 

rt 代表 当前 的 奖励 。 每 个 权重 的 改变 如 下 : 

Ówt- aotsf-1 


o 代 表 学 习 速 率 。 如 果 当 前 奖励 大 于 预测 奖励 ， 且 651 是 正 值 ， 奖 
励 出 现 之 前 的 感官 输入 的 权重 就 会 增加 ， 但 是 如 果 妆 前 奖励 小 于 预 
测 奖 励 ， 且 65 是 负 值 ， 感 官 输入 的 权重 就 会 减少 。 


图 片 改编 自 : Montague, P. R. and Sejnowski, T. J., The Predictive 





Brain: Temporal Coincidence and Temporal Order in Synaptic Learning 


Mechanisms, figure6 A. 





由 于 唯一 的 实际 奖励 发 生 在 游戏 结束 时 ， 你 可 能 会 合理 地 推测 TD- 

Gammon’ FL 96° 2I FRE 吉 局 ， 然后 是 游戏 的 中 辣 部 分 ， 最 后 是 开局 。 
这 些 实际 上 是 发 生 在 “表格 强化 学 习 ”(tabular pe learning) 的 

过 程 ， 其 状态 a EM 个 数值 表 。 但 它 与 神经 网 络 
络 快速 锁定 输入 特征 中 的 简单 可 靠 信号 ， 接 痢 锁 定 
Rol d. 。TD-Gammon 学 习 的 第 一 个 概念 
是 “ 拿 走 棋子 ”， 可 ee a 子 数目 的 输入 特征 添加 正 的 权重 
来 实现 。 第 二 个 概念 是 “ 击 中 对 手 棋 子 ” 一 一 这 是 一 个 在 所 有 阶段 效果 都 
相当 不 错 的 启发 式 做 法 ， 一 部 分 输入 单元 对 被 击 中 rarius H3 
行 了 编码 ， 可 以 通过 为 这 些 单元 加 上 正 权 重 进 行 学 习 。 第 三 个 概念 * 避 
免 被 击 中 >”， 是 对 第 二 个 概念 的 MAAR TD gE 被 击 中 
的 单个 棋子 施加 人 负 权 重 来 学 习 。 第 四 个 概念 是 通过 “积累 积分 ”来 阻止 对 
手 前 进 ， 通 过 对 积分 输入 赋予 正 权 重 来 学 习 。 理 解 这 些 基 本 概念 需要 完 
成 几 和 干 场 的 训练 棋局 。 通 过 一 万 场 棋局 ，TD-Gammon 会 学 习 到 中 级 概 
D: 通过 10 万 场 棋局 ， 它 开始 学 习 高 级 概念 ; 经 历 了 100 万 场 棋局 后 ， 
它 已 经 学 会 了 冠军 级 的 概念 ， 或 者 超越 了 20 世 纪 90 年 代 初 人 类 玩家 的 水 
ae 

ADE ERR T 19924 EEREN f TD-Gammon,. "SIUE 
我 和 其 他 同行 都 感到 非常 惊讶 。 乌 | 这 个 程序 的 价值 函数 (value 
function) 是 一 个 具有 80 个 隐藏 单元 的 反 辐 传播 网 络 。 在 30 万 场 比 哥 之 
后 ， 该 程序 击败 了 杰 拉 德 ， 于 是 他 联系 了 著名 的 西洋 双 陆 棋 世 界 冠 军 选 
手 兼作 家 比尔 :罗伯特 (Bil Robertie) ， 并 邀请 他 来 约克 敦 海 茨 的 IBM 
跟 TD-Gammon 对 局 。 罗 伯 特 赢得 了 大 部 分 的 模 局 ， 但 是 对 在 一 些 胜算 
较 高 的 对 局 中 沙 败 不 免 感 到 惊讶 ， 随 后 他 宣布 这 是 他 对 记过 的 最 好 的 西 
洋 双 陆 棋 程序 。TD-Gammon 展 现 了 一 些 他 从 未 见 过 的 棋 路 ;， 经 过 一 香 
仔细 研究 ， 这 些 棋 路 被 证 明 可 以 在 总 体 上 提升 人 类 玩家 的 水 平 。 当 该 程 
























































序 与 自己 对 局 达到 150 万 次 时 ， 罗 伯 特 回来 了 ， 而 且 非 常 惊讶 于 自己 大 
然 只 跟 TD-Gammon 打 了 个 平手 。 它 的 水 平 突 飞狐 进 ， 罗 伯 特 觉得 它 已 
经 达到 了 人 类 冠军 的 水 平 。 西 洋 双 陆 棋 专家 基 特 :- 伍 尔 西 (Kit 
Woolsey) 发 现 ， 当 时 TD-Gammon 对 于 应 该 打 安全 牌 〈 低 风险 / 低 奖 
励 ) 还 是 走 险 着 (高 风险 /高 奖励 ) 的 判断 ， 比 他 见 过 的 任何 人 都 要 准 
确 。 昌 然 150 万 局 的 训练 可 能 看 起 来 已 经 很 多 了 ， 但 它 只 代表 了 所 有 
10” 个 可 能 的 西洋 双 陆 棋 板 位 置 的 无 限 小 部 分 ， 这 要 求 TD-Gammon 的 几 
乎 每 一 步 棋 都 能 推广 到 新 的 棋 板 位 置 。 


TD-Gammon 并 没有 像 IBM 的 “ 深 蝎 ”那样 受到 公众 的 关注 ， 后 者 在 
1997 年 的 国际 象棋 比赛 中 击败 了 加 里 : 卡 斯 帕 罗 夫 (Gary Kasparov) 。 
国际 象棋 比 西洋 双 陆 棋 要 困难 得 多 ， 卡 斯 由 罗 夫 当时 是 国际 象棋 的 世界 
冠军 。 但 在 某 些 方面 ，TD-Gammon 是 一 个 令 人 印象 更 加 深刻 的 成 就 。 
首先 ，TD-Gammon 使 用 模式 识别 技术 来 教会 自己 如 何 下 柑 ， 这 与 人 类 
学 习 的 风格 十 分 相似 ， 而 “深蓝 ” 则 通过 骏 力 算法 (brute force) 获得 胜 
利 ， 使 用 特制 硬件 ， 比 任何 人 类 棋 手 都 能 预见 到 更 多 可 能 的 棋 路 。 其 
次 ，TD-Gammon 也 很 有 创意 ， 使 用 了 人 类 从 未 见 过 的 微妙 策略 和 位 置 
决策 。 这 样 一 来 ，TD-Gammon 也 提高 了 人 类 的 竞 技 水 平 。 这 一 成 就 是 
人 工 智能 历史 上 的 一 道 分 水 岭 ， 因 为 我 们 从 一 个 人 工 智能 程序 中 学 习 到 
了 新 东西 。 该 程序 教会 了 自己 如 何在 一 个 人 类 熟 答 的 领域 中 掌握 一 种 复 
杂 的 策略 ， 这 种 新 集 略 值得 人 们 关注 和 思考 。 

















大 脑 的 奖励 机 制 


TD-Gammon 的 核心 是 时 间 差 分 学 习 算 法 ， 它 受到 了 动物 学 习 实 验 
的 局 发 。 几 乎 所 有 经 过 测试 的 物种 ， 从 蜜蜂 到 人 类 ， 痢 可 以 进行 关联 训 
练 ， 就 像 巴 甫 洛 夫 的 狗 一 样 。 在 巴 甫 洛 夫 的 实验 中 ， 诸 如 铃声 之 类 的 感 
官 刺激 之 后 ， 就 会 有 食物 出 现 ， 这 会 引起 流 洗 反 应 。 经 过 几 次 这 样 的 配 
对 之 后 ， 仅 靠 铃 声 本 身 就 会 导致 流 泗 。 不 同 物种 在 关联 学 习 中 对 无 条 件 














刺激 有 不 同 的 偏好 。 蜜 蜂 非 常 擅长 将 花 的 气味 、 颜 色 和 形状 与 花蜜 的 奖 
励 联 系 起 来 ， 并 利用 这 种 学 习 到 的 关联 来 找到 当 季 盛开 的 相似 品种 的 
伦 。 这 种 普 过 的 学 习 方式 一 定 包 含 了 什么 重要 信息 。20 世 纪 60 年 代 有 一 
段 时 期 ， 心 理学 家 们 深入 研究 了 引起 关联 学 习 的 条 件 ， 并 开发 了 解释 它 
的 模型 。 像 斯 金 纳 (B. F. Skinner) 这 样 的 行为 主义 学 家 曾 训练 鸽子 识 
别 出 照 厂 中 的 人 类 ， 这 就 让 人 联想 起 对 深度 学 习 的 训练 ， 但 这 其 中 有 一 
个 很 大 的 区 别 。 反 问 传 播 学 习 需 要 对 输出 层 上 的 所 有 单元 提供 详细 的 反 
tm, 但 关联 学 习 只 提供 单一 的 奖励 信号 ， 即 正确 或 不 正确 。 大 脑 必 须 弄 
清楚 环境 中 的 哪些 特征 能 够 帮助 做 出 成 功 的 抉择 。 

只 有 在 奖励 之 前 发 生 的 刺激 才 被 认为 和 奖励 有 关联 。 这 是 有 道理 
的 ， 相 比 奖 励 之 后 的 刺激 ， 奖 励 之 前 的 刺激 更 有 可 能 引发 奖励 。 因 果 关 
系 是 目 然 界 的 一 个 重要 原则 。 相 反 的 情况 则 是 条 件 刺 激 之 后 伴随 的 乱 
训 ， 例 如 撞 到 脚 这 一 后 末 ， 能 教会 动物 在 今后 避免 这 类 刺激 。 在 某 些 情 
况 下 ， 条 件 刺 激 和 惩 昼 之 间 的 时 间 间 隔 可 能 会 相当 长 。20 世 纪 50 年 代 ， 
约翰 :加 西亚 (John Garcia) WH, WR— Hz BUR IK. 3PHTEJL 
小 时 后 感到 恶心 ， 那 么 它 在 接 下 来 的 几 天 都 会 避 开 甜水 。 这 就 是 所 谓 
的 “味觉 厌恶 学 习 ”(taste aversion learning) ， 它 也 会 发 生 在 人 类 身 
上 。 殴 有时， 恶心 会 被 错误 地 关联 到 摄取 的 食物 上 ， 如 巧克力 。 遗 憾 
的 是 ， 巧 克 力 只 是 与 其 他 东西 同时 被 食用 ， 而 不 是 引起 恶心 的 原因 ， 而 
由 此 产生 的 厌恶 感 可 以 持续 多 年 ， 即 使 当事人 已 经 理性 地 觉察 到 巧克力 
并 不 是 问题 的 根源 。 

多 巴 胺 (Dopamine) 是 脑 干 中 一 组 由 扩散 投射 神经 元 所 携带 的 神经 
调节 剂 ( 见 图 10-4) ， 长 期 以 来 一 直 被 认为 与 奖励 学 习 有 关 ， 但 人 们 始 
终 不 清楚 它 传 给 皮层 的 信号 是 什么 。20 世 纪 90 年 代 ， 我 实验 室 的 博士 后 
研究 员 彼 得 : 达 扬 (Peter Dayan) 和 瑞 德 . 蒙 塔 古 (Read Montague) 意识 
到 ， 多 巴 胺 神经 元 可 以 实现 时 间 差分 学 习 。[ 思 这 是 我 科研 生涯 中 最 让 
人 兴 耕 的 几 个 时 期 之 一 ， 这 些 模型 及 其 预测 得 以 发 表 ， 并 随后 被 沃 尔 夫 
SG BP RY (Wolfram Schultz) 及 其 同事 通过 猴子 的 单 神经 元 记录 〈 见 




















图 10-5) Blan A 3g ut Dy bp SE. MECZE, ZERA 
活动 的 瞬时 变化 传递 了 奖励 预测 误差 信号 。 





图 10-4 人 脑 中 的 多 巴 胺 神经 元 。 位 于 中 脑 的 几 个 核 [VTA 和 黑 质 (substantia nigra) ] 将 轴 
突 投射 进入 皮层 和 基底 神经 节 LAIKA (striatum) 和 伏 隔 核 (nucleus accumbens) ] . BEA 
脉冲 (Transient bursts) 标志 着 奖励 预测 和 获得 奖励 两 者 之 间 存 在 差异 ， 可 以 被 用 于 选择 行 


动 和 修改 预测 。 


没有 预期 
奖励 发 生 


有 预期 
奖励 友 生 


有 预期 
没有 奖励 发 生 





图 10-5 猴 脑 中 多 巴 胺 神经 元 的 反应 ， 证 明了 它 能 够 向 大 脑 的 其 他 部 分 发 出 奖励 预测 误差 。 每 个 
点 都 是 多 巴 胺 神经 元 的 一 次 脉冲 。 每 一 条 线 都 是 单一 的 学 习 试 验 。 每 个 时 间 段 中 脉冲 的 数量 显 
示 在 记录 的 顶部 。 (上 图 ) 在 学 习 开 始 时 ， 奖 励 (R) 是 意外 得 到 的 ， 多 巴 胺 在 得 到 奖励 后 激发 
了 一 段 脉冲 。 (中 图 ) 经 过 多 次 试验 ， 当 光照 〈 条 件 刺 激 ，conditioned stimulus, CS) 在 奖 
励 发 放 前 持续 闪现 时 ， 多 巴 胺 细胞 对 CS 做 出 了 反应 ， 但 没有 对 奖励 做 出 回应 。 根 据 时 间 差 分 学 


习 ， 奖 励 后 的 响应 被 奖励 前 的 预测 抵消 了 。 (FA) 当 奖 励 在 试验 中 被 扣留 时 ， 多 巴 胺 神经 元 
的 激发 在 预期 出 现 奖励 的 位 置 出 现 了 回落 。 图 片 改 编 自 : Schultz, Dayan, and Montague, “A 
Neural Substrate of Prediction and Reward, " 1594, figure 1。 


1992 年 ， 我 去 柏林 拜访 了 正在 研究 蜜蜂 大 脑 快速 学 习 的 兰 道夫 : 门 

泽 尔 (Randolph Menzel) ， 当 时 我 们 在 灵 长 类 动物 的 奖励 预测 误差 方面 
己 经 取得 了 一 些 进 展 。 蜜 蜂 的 学 习 能 力 在 昆虫 界 是 数一数二 的 。 在 访问 
一 朵 花 几 次 并 得 到 奖励 后 ， 密 蜂 就 能 记 住 这 杂 花 。 密 蜂 脑 中 有 大 约 100 
万 个 小 神经 元 ， 很 难 记录 这 些 神经 元 的 活动 ， 因 为 它们 非常 小 。 门 泽 尔 
的 小 组 发 现 了 一 种 叫 作 *VUMmxl? 的 独特 神经 元 ， 它 对 芒 糖 有 反应 ， 但 
对 气味 没有 反应 。 然 而 ， 如 果 先 传递 气味 再 提供 蔗糖 奖励 ，VUMmx1 也 
会 对 气味 做 出 反应 。 只 叫 时间差 分 学 习 的 多 巴 胺 模型 在 蜂 脑 中 可 能 由 单 
个 神经 元 实现 。VUMmx1 释 放 了 一 种 在 化 学 上 与 多 巴 胺 密切 相关 的 神经 
调节 剂 一 一 奥 克 巴 胺 (octopamine〉。 这 种 蜜蜂 学 习 模 式 可 以 对 蜜蜂 心 
理学 中 一 些微 妙 的 方面 做 出 解释 ， 比 如 风险 规避 。 上 LL 如 果 让 蜜蜂 

在 “定时 定量 的 奖励 "和 “在 一 半 的 时 间 内 获得 双 倍 奖励 "之 间 进 行 选择 ， 

蜜蜂 会 始终 选择 前 者 ， 尽 管 奖 励 的 平均 值 相同 。 呈 多巴胺 神经 元 也 存 
在 于 苍蝇 体内 ， 并 且 已 被 证 明 包含 几 条 用 于 短期 和 长 期 关联 记忆 的 并 行 
强化 学 习 途 径 。[3] 




















用 “感知 一 行动 ”框架 拓 局 绩效 


多 巴 受 神经 元 构成 了 控制 大 脑 中 动机 的 核心 系统 ， 所 有 成 瘾 药物 都 
是 通过 增加 多 巴 胺 的 分 泥水 平 起 作 用 。 当 死亡 的 多 巴 胺 神经 元 达到 一 定 
数量 时 ， 人 体 就 会 出 现 帕 金森 病 的 症状 、 包 括 运 动 性 震颤 ， 运 动 运 绥 ， 
后 期 则 完全 丧失 任何 活动 的 快感 ， 即 “快感 缺失 ”(anhedonia) ， 最 终 导 
致 活动 和 反应 能 力 的 彻底 缺失 ， 即 “紧张 性 抑郁 障碍 ”(catatonia〉。 当 
意外 奖励 发 生 时 ， 行 为 正常 的 多 巴 胺 细胞 会 回 皮 层 和 其 他 脑 部 区 域 短暂 
释放 多 巴 胺 。 当 实际 奖励 低 于 期 望 时 ， 多 巴 胺 的 释放 量 会 减少 。 这 正 是 








时 间 差 分 算法 的 特征 《〈《 见 图 10-5) 。 

当 我 们 需要 做 出 决定 时 ， 都 会 询问 多 巴 胺 神经 元 。 我 们 应 该 从 沫 单 
中 点 些 什么 ? 当 我 们 想象 每 个 菜品 时 ， 多 巴 胺 细胞 就 会 提供 对 预期 奖励 
的 估计 。 我 应 该 和 这 个 人 结婚 吗 ? 我 们 的 多 巴 胺 细胞 会 给 我 们 一 个 比 理 
性 分 析 更 值得 信赖 的 “直觉 ”建议 。 最 难以 决定 的 则 是 带 有 许多 不 相称 维 
度 的 问题 。 在 选择 配偶 时 ， 要 如 何平 衡 幽 默 感 和 遗 示 的 生活 习惯 ， 或 者 
在 正面 和 负面 的 特质 之 间 做 出 数 以 百 计 的 其 他 权衡 。 我 们 的 奖励 系统 将 
所 有 这 些 维度 降低 到 了 一 个 “通用 货币 ”的 范畴 ， 即 短暂 的 多 巴 腕 信和 号 。 
这 种 “通用 货币” 的 经 济 力量 在 我 们 发 现 它 之 前 很 长 一 段 时 间 ， 束 已 经 被 
大 目 然 所 利用 了 。 

时 间 差 分 学 习 算 法 中 存在 两 个 参数 ， 学 习 速 率 a 和 折扣 因子 y (见方 
框 10.1，〉。 某 些 昆 虫 具 有 很 高 的 学 习 速 率 ， 比 如 蜜蜂 ， 在 一 次 访问 后 束 
可 以 学 会 将 花 与 奖励 联系 起 来 。 但 哺乳 动物 的 学 习 速 率 较 低 ， 往 往 要 和 演 
试 多 次 。 折 扣 因 子 (discount factor) 也 在 很 大 的 范围 内 变化 。 当 y= 0 
时 ， 学 习 算 法 是 贫 禁 的 ， 仅 仅 基 于 是 否 能 立刻 获得 奖励 做 出 决定; 但 是 
当 y= 1 时 ， 所 有 未 来 奖励 都 具有 相等 的 权重 。 在 一 个 经 典 的 实验 中 ， 被 
测试 的 幼 鞋 可 以 选择 是 立刻 吃 挥手 里 的 一 颗 棉 花 糖 ， 还 是 等 待 15 分 钟 再 
吃 ， 到 时 候 就 能 再 得 到 一 颗 棉花 糖 。 呈 纪年 龄 是 一 个 强 有 力 的 预测 因 
子 ， 年 龄 较 小 的 孩子 无 法 延迟 满足 感 。 如 果 认 为 有 必要 ， 我 们 可 以 在 短 
期 内 做 出 带 来 负面 回报 的 选择 ， 以 交换 在 遥远 的 将 来 所 期 望 获得 的 更 丰 
厚 的 奖励 。 

多 巴 胺 神经 元 接受 来 自 大 脑 中 被 称 为 “基底 神经 节 ” 部 分 的 输入 〈 见 
图 10-4) ， 众 所 周知 ， 这 对 于 顺序 学 习 和 习惯 行为 的 形成 是 很 重要 的 。 
基底 神经 节 纹 状 体 中 的 神经 元 接受 来 自 整 个 大 脑 皮 层 的 输入 。 来 自 皮 叶 
层 后 半 部 分 的 输入 ， 对 于 学 习 动 作 的 顺序 以 实现 某 个 目标 而 言 十 分 重 
要 。 前 额 叶 皮层 对 基底 神经 节 的 输入 更 多 的 是 与 行动 的 计划 顺序 有 关 。 
从 皮层 到 基底 神经 节 再 返回 的 循环 需要 100 旱 秒 ， 每 秒 循环 信息 10 次 。 
这 了 驶 允许 通过 一 系列 快速 诀 策 来 实现 目标 。 基 底 神 经 节 的 神经 元 也 会 评 






































佑 皮层 状态 ， 并 为 它们 分 配 一 个 值 。 

基底 神经 节 执 行 的 是 杰 拉 德 . 特 索 罗 在 TD-Gammon 中 训练 的 价值 函 
数 的 高 级 版 本 ， 后 者 被 用 来 预测 棋盘 位 置 的 价值 。 在 第 1 章 中 描述 的 由 
DeepMind 公 司 开 发 的 AlphaGo 所 取得 的 惊人 成 就 ， 即 具备 围棋 世界 冠军 
级 别 的 能 力 ， 是 基于 与 TD-Gammon 相 同 的 体系 结构 ， 但 前 者 是 后 者 的 
加 强 版 。TD-Gammon 价 值 网 络 中 的 一 层 隐 藏 单元 在 AlphaGo 中 变 成 了 十 
几 层 ， 并 经 历 了 数 百 万 次 对 决 ， 但 基本 的 算法 是 一 样 的 。 这 是 对 神经 网 
络 学 习 算法 出 色 的 缩放 性 的 生动 演示 。 如 果 我 们 继续 增加 网 络 规模 和 训 
练 时 间 ， 人 性 能 还 会 获得 多 大 程度 的 提升 呢 ? 

棋 类 游戏 的 规则 比 现 实 世界 要 简单 得 多 。 电 子 游戏 世界 为 迈 回 更 复 
林 和 不 确定 的 环境 提供 了 一 块 垫 脚 石 。DeepMind 在 2015 年 已 经 表明 ， 
时 间 差 分 学 习 能 够 以 屏幕 像素 为 输入 ， 学 习 如 何在 超人 的 水 平 上 玩 像 
Pong 这 样 的 雅 达 利 (Atari) 街机 游戏 。 员 2 下 一 个 热 脚 石 是 三 维 环境 中 
的 视频 游戏 。《 星 际 争霸 》 (Star Craft) 是 有 史 以 来 最 具 竞 争 力 的 视频 
游戏 之 一 ，DeepMind 正 在 使 用 它 来 开发 可 在 该 世界 纵横 掉 阁 的 上 自主 深 
度 学 习 网 络 。 微 软 研究 院 最 近 购 买 了 另 一 种 流行 的 视频 游戏 《我 的 世 
界 》 Minecraft) 的 版 权 ， 并 开放 了 它 的 源 代码 ， 以 便 其 他 人 可 以 对 它 
的 三 维 环境 进行 个 性 化 修改 ， 从 而 加 快 其 人 工 智 能 的 发 展 进度 。 


能 够 像 冠 盏 那样 下 西洋 双 陆 棋 和 围棋 ， 是 一 项 了 不 起 的 成 就 ， 玩 电 
子 游戏 是 下 一 个 重要 的 进步 ， 那 么 解雇 现实 世界 的 问题 呢 ? 感知 一 行动 
周期 〈 见 图 10-2) 可 用 于 解雇 任何 基于 感官 数据 来 计划 行动 的 问题 。 行 
为 的 结果 可 以 与 预测 的 结果 进行 比较 ， 其 差 值 随 后 被 用 于 更 新 进行 预测 
的 系统 的 状态 ， 对 先前 条 件 的 记忆 可 以 被 用 来 优化 资源 的 使 用 ， 并 预测 
潜在 的 问题 。 

加 拿 大 安大略 省 汉密尔顿 市 麦克 马 斯 特大 学 “McMaster 
University〉 的 西蒙 - 赫 金 (Simon Haykin) ， 曾 经 使 用 这 个 框架 来 提高 
几 个 重要 的 工程 软件 系统 的 性 能 ， 册 5 包括 : 认 知 无 线 电 ， 可 以 动态 分 
配 通 信 渠 道 ， 认 知 雷达 ， 能 够 动态 地 移动 频带 以 减少 和 干扰; 还 有 认 知 电 
































网 ， 可 以 动态 平衡 电网 电力 负载 。 风 险 控 制 也 可 以 在 同一 个 “感知 一 行 
动 " 框 架 内 进行 管理 。 忆 J 通 过 在 每 个 软件 系统 中 使 用 “感知 一 行动 "框架 
来 改进 它们 所 管理 的 领域 ， 可 以 显著 地 提高 绩效 并 降低 成 本 。 


J aA 


2016 年 ， 加 州 大 学 圣迭戈 分 校 的 物理 学 家 马 西 真 : 维 加 索 拉 
(Massimo Vergassola) 和 我 都 在 思考 ， 是 否 可 以 利用 时 间 差 分 学 习 ， 
让 滑翔 机 在 高 空 简 翔 几 小 时 ， 而 且 像 许多 鸟 类 那样 不 用 消耗 太 多 能 
量 。 卫 下 热膨胀 空气 能 够 将 鸟 类 带 到 很 高 的 高 度 ， 但 是 在 热 空气 中 ， 空 
气 是 汕 流 的 ， 同 时 存在 向 下 和 癌 上 的 气流 。 面 对 如 此 多 的 冲击 ， 乌 类 是 
如 何 保持 它们 向 上 轨迹 的 ， 我 们 对 此 还 没有 一 个 清晰 的 认识 。 我 们 的 第 
一 步 是 对 汕 流 对 流 过 程 进 行 一 个 通 真 的 物理 模拟 ， 并 创建 一 个 滑翔 机 至 
气动 力学 模型 。 下 一 步 就 是 模拟 滑翔 机 在 满 流 中 的 轨迹 。 

一 开始 ， 滑 翔 机 还 无 法 利用 上 升 的 空气 柱 ， 表 现 为 回 下 滑行 ( 见 图 
10-6) 。 在 将 “同上 ”标记 为 奖励 后 ， 滑 翔 机 开始 学 习 一 种 策略 ， 经 过 几 
百 次 试验 后 ， 它 的 飞行 轨迹 跟 乌 类 轴 翔 时 所 形成 的 紧凑 的 环 状 路 径 就 比 
较 相 似 了 。 清 翔 机 还 学 习 了 应 对 不 同 程度 水 流 的 不 同 策略 。 通 过 分 析 这 
些 策略 ， 我 们 可 以 提出 假设 ， 并 参考 乌 类 诱 翔 是 售 的 确 使 用 到 了 这 些 策 
略 。 然 后 ， 我 们 装备 了 一 架 曼 展 有 6 英尺 宽 的 滑翔 机 ， 教 它 著 翔 并 保持 
m, [19] 
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图 10-6 ABUSE TVA AAR. (FA) 在 我 们 的 瑞 利 - 贝 纳 尔 对 流 (Rayleigh- 
Bénard convection) 三 维 数值 模拟 中 垂直 速度 场 (A) 和 温度 场 (B) HRA. HARRY 
中 ， 红 色 和 蓝 色 分 别 表 示 上 升 气 流 和 下 降 和 气流 的 区 域 。 温 度 场 中 ， 红 色 和 蓝 色 分 别 表示 高 温和 
低温 区 域 。 (上 图 ) 未 经 训练 的 滑翔 机 (A) 和 经 过 训练 的 滑翔 机 (B) ARFI-NARMAP K 
行 的 典型 轨迹 。 颜 色 表 示 滑 翔 机 经 历 的 垂直 风速 。 绿 色 和 红色 圆 点 分 别 表示 轨迹 的 起 点 和 终 
点 。 未 经 训练 的 滑翔 机 随机 做 出 决定 并 下 降 飞 行 高 度 ， 而 训练 过 的 滑翔 机 在 强 上 升 气 流 区 域 以 
特征 的 螺旋 轨迹 飞行 ， 如 鸟 类 和 滑翔 机 在 热气 流 中 飞行 时 所 观察 到 的 那样 。 图 片 来 源 : G. 
Reddy, A.Celani, T. J. Sejnowski, and M. Vergassola, “Learning to Soar in 
Turbulent Environments, " top: figure 2; bottom: figure 11. 


学 习 如 何 歌唱 


能 够 展现 强化 学 习 能 力 的 其 他 例子 ， 还 包括 乌 类 如 何 学 习 唱歌 ， 以 
及 孩子 如 何 学 习 说 话 。 在 这 两 种 情况 下 ， 听 和 觉 学 习 的 初始 阶段 结束 之 
后 ， 就 进入 了 渐进 式 运动 性 学 习 的 后 期 阶段 。 斑 胸章 誉 在 刚 出 生 不 久 惑 





听 到 了 它们 父亲 的 歌声 ， 但 要 几 个 月 后 才能 发 出 自己 的 声音 。 即 使 当 它 
们 在 运动 学 习 阶段 与 父亲 分 离 时 ， 会 经 历 一 段 听 起 来 很 刺耳 的 初 鸣 期 ， 
但 这 种 声音 会 不 断 地 改善 ， 最 终 按 照 它们 父亲 特有 的 音调 发 出 鸟 鸣 。 斑 
胸 草 省 可 以 通过 同 物种 的 歌声 判断 它 来 自 森 林 的 何 处 ， 就 像 我 们 能 够 从 
一 个 人 的 口音 得 知 那 个 人 来 自 哪 里 一 样 。 推 动 鸟 鸣 研究 的 假设 是 ， 在 听 
觉 学 习 阶段 ， 鸟 类 先 学 习 模板 ， 然 后 用 模板 来 改进 运动 系统 在 运动 性 学 
习 阶 段 产生 的 声音 。 我 们 知道 强化 学 习 发 生 在 基底 神经 节 ， 而 负责 人 类 
和 鸣 禽 运动 学 习 阶段 的 通路 也 位 于 那里 。 

1995 年 ， 我 实验 室 的 博士 后 铜 谷 贤 治 (Kenji Doya)〉 开 发 了 “ 鸟 鸣 运 
动 细 化 ”的 强化 学 习 模型 〈 见 图 10-7) 。 该 模型 通过 调整 运动 通路 中 的 
突 触 ， 使 之 与 鸟 类 的 发 声 器 官 〈 即 鸣 管 ，syrinx) 模型 相 匹配 ， 从 而 提 
高 了 它 的 性 能 ， 然 后 测试 新 歌 是 否 比 前 一 首 歌 更 符合 这 个 模板 。 如 果 是 
的 话 ， 这 些 变 化 就 被 保留 ， 但 如 果 新 的 歌曲 匹配 效果 较 差 ， 那 么 突 触 就 
会 衰减 回 原来 的 强度 。 蕊 9 我 们 预测 ， 在 产生 音节 序列 的 运动 回路 的 项 
端 ， 应 该 只 活跃 在 歌曲 单个 音节 上 的 神经 元 ， 以 便 更 容易 地 对 每 个 音节 
分 别 进行 调整 。 后 来 ， 麻 省 理工 学 院 的 米 歇 尔 . 菲 (Michale Fee) 实验 
室 和 其 他 鸟 类 实验 室 的 研究 结果 证 实 了 这 一 点 ， 同 时 也 证 实 了 该 模型 中 
的 其 他 关键 预测 。 
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图 10-7 斑 胸 草 稚 的 鸟 鸣 。 在 图 右 侧 的 频谱 图 中 ， 父 亲 的 歌 喝 〈 寻 师 ， 上 图 ) 教 给 了 儿子 (学 
生 ， 上 数 第 二 张 图 ) ， 于 是 这 种 岛 鸣 的 声音 特征 代 代 相传 。 注 意 频 谱 图 (时 域 上 的 频谱 功率 场 
数 ) 中 基调 (红色 轮廓 框 ) 的 相似 性 。 基 调 随 着 代 际 的 增长 而 变 短 。 左 图 来 源 : http://bird- 
photoo. blogspot. com/2012/11/zebrafinch-bird-pictures. html: GARR: Olga Feher 
Haibin Wang, Sigal Saar, Partha P. Mitra, and Ofer Tchernichovski, *De novo 
Establishment of Wild-Type Song Culture in the Zebra Finch," figuer 4. 


在 加 州 大 学 旧金山 分 校 研 究 乌 鸣 学 习 的 艾 莉 森 : 杜 普 CAllison 
Doupe) ， 以 及 在 西雅图 华盛顿 大 学 研究 婴儿 语言 系统 发 育 的 由 特 里 夏 . 
库 尔 (Patricia Kuhl) ， 都 证 明了 鸣 禽 学 习 和 幼儿 语言 学 习 方面 有 很 多 
相似 之 处 。 忆 也 鸟 儿 的 音节 和 婴儿 的 音素 首先 是 作为 声音 被 习 得 的 〈 即 
听觉 学 习 ) ， 而 运动 学 习 随 后 才 以 鸟 类 的 初 鸣 和 婴儿 的 唤 呀 学 语 开始 。 
在 大 脑 中 有 许多 因 和 领域 而 异 的 学 习 和 记忆 系统 ， 这 些 系统 必须 协同 工作 
以 获取 新 技能 。 乌 类 学 习 鸟 鸣 的 强化 学 习 算 法 以 及 在 猴子 、 人 类 、 窗 蜂 
等 奖励 系统 中 的 时 间 差 分 学 习 算 法 ， 只 是 其 中 的 两 个 例子 。 








人 工 知 能 的 可 塑性 





管 人 们 在 视觉 和 听觉 等 认 知 功能 的 自动 化 方面 取得 了 进展 ， 但 人 
智能 还 需要 在 人 类 智能 的 许多 其 他 方面 取得 进步 。 皮 层 中 的 表征 学 习 
基底 神经 节 中 的 强化 学 习 相 辅 相 成 。 人 工 智能 学 习 能 把 精通 围棋 的 能 
力 运 用 到 解决 其 他 复杂 问题 上 吗 ? 大 部 分 人 类 学 习 都 是 基于 观察 和 模 
仿 ， 对 于 学 习 识 别 新 对 象 ， 我 们 需要 的 样本 比 深度 学 习 要 少 得 多 。 未 标 
记 的 感官 数据 非常 丰 宇 ， 强 大 的 无 监督 学 习 算 法 可 以 在 进行 任何 监督 之 
前 使 用 这 些 数据 学 到 一 些 东 西 。 在 第 7 章 中 ， 一 个 无 监督 版 本 的 玻 尔 效 
受 学 习 算法 被 用 来 初始 化 深度 学 习 网 络 。 在 第 6 章 中 ， 独 立 分 量 分 析 
一 一 一 种 无 监督 学 习 算 法 ， 能 够 从 上 自然 图 像 中 提取 稀 朴 编码 (sparse 
population codes) 。 在 第 9 章 ， 生 成 对 抗 网 络 一 一 一 个 无 监督 的 学 习 系 
统 ， 可 以 创建 怠 真 的 图 片 。 无 监督 学 习 是 机 器 学 习 的 下 一 个 前 沿 领域 。 
我 们 对 大 脑 式 计算 的 理解 才刚 刚 拉 开 序幕 。 

大 脑 的 许多 学 习 系 统 和 形式 多 样 的 可 塑性 可 以 协同 工作 。 仅 在 大 脑 
皮层 内 就 有 几 十 种 可 塑性 ， 例 如 神经 元 兴奋 性 和 增益 的 可 塑性 。 突 触 可 
塑性 一 个 特别 重要 的 形式 是 稳 态 Chomeostatic) ， 它 确保 神经 元 在 最 佳 
动态 范围 内 活动 。 当 突 触 强度 降低 到 零 或 达到 极限 时 ， 会 发 生 什 么 呢 ? 
这 可 能 导致 神经 元 永远 不 会 获得 足够 的 输入 来 达到 闷 值 ， 或 者 接收 太 多 
的 输入 并 始终 保持 高 水 平 的 活动 。 吉 娜 : 特 里 吉 亚 诺 (Gina Turrigiano) 
在 大 脑 中 发 现 了 一 种 新 的 突 触 可 塑性 形式 ， 它 将 神经 元 上 的 所 有 突 触 进 
行 了 归 一 化 ， 以 维持 神经 元 活动 的 平衡 。 长 站 如 果 平 均 活动 速率 过 高 ， 
所 有 兴奋 性 突 触 强度 都 会 减 小 ;如果 速率 太 低 ， 所 有 突 触 强度 都 会 增 
加 。 对 于 抑制 性 输入 ， 情 况 则 相反 ， 如 果 活 动 速率 太 高 ， 突 触 强 上 度 会 增 
加 ， 速 率 太 低 则 减 小 。 类 似 的 归 一 化 形式 已 经 被 证 明 能 够 有 效 地 模拟 大 
脑 中 神经 映射 的 发 展 。 导 站 由 随机 梯度 下 降 (stochastic gradient 
descent) 驱动 的 人 工 神经 网 络 能 够 从 稳 态 缩放 (homeostatic scaling) 中 
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大 脑 在 其 神经 元 细胞 膜 上 具有 数 十 个 电压 敏感 的 配 体 门 控 离 子 通 
道 ， 用 以 调节 兴奋 性 和 信号 传导 。 神 经 元 的 树 突 、 体 细胞 和 轴 突 内 部 一 
定 有 某 种 基于 局 部 活动 模式 的 机 制 ， 来 动态 调节 这 些 通 道 的 位 置 和 密 
度 。 有 人 曾 提 出 过 几 种 算法 来 实现 这 些 机 制 。 上 型 目 前 ， 我 们 对 这 些 稳 
态 形式 的 理解 并 没有 达到 突 触 稳 态 可 塑性 那样 的 深度 。 








更 多 需要 航 解 决 的 问题 


在 蒙特 利 尔 举行 的 2015 年 NIPS 大 会 的 “Brains，Minds and 
Machines”( 大 脑 、 思 维和 机 器 〉 座 谈 会 ， 以 及 2016 年 巴塞 罗 那 NIPS 大 
会 的 “Bits and Brains”( 比 特 与 大 脑 ) 研讨 会 期 间 ， 戴 米 斯 : 哈 桂 比 斯 和 
我 在 关于 人 工 智 能 未 来 ， 以 及 下 一 个 优先 研究 重点 的 问题 上 进行 了 激烈 
的 辩论 。 人 工 乔 能 中 还 有 许多 开放 的 问题 需要 解决 。 最 重要 的 就 是 因果 
关系 问题 ， 它 提供 了 最 高 层次 的 人 类 推理 ， 以 及 行动 的 意 同 性 问题 ， 这 
两 者 都 预示 着 一 种 精神 理论 。 我 之 前 提 到 ， 我 们 所 创造 的 深度 学 习 系 统 
都 不 能 依靠 自己 独立 生存 。 这 些 系统 的 自主 性 只 有 在 它们 包含 了 迄今 为 
止 一 直 被 忽视 的 ， 类 似 于 大 脑 其 他 部 分 的 功能 时 才 有 可 能 实现 ， 例 如 管 
理 摄食 、 繁 殖 、 调 市 激素 、 稳 定 内 脏 的 下 丘脑 ， 以 及 帮助 我 们 根据 运动 
预测 误差 来 调整 运动 的 小 脑 。 这 些 都 是 在 所 有 将 椎 动物 中 发 现 的 古老 结 
构 ， 对 生存 起 着 至 关 重 要 的 作用 。 

哈 瓦 : 西 格 尔 曼 〈Hava Siegelmann) 是 马萨诸塞 大 学 阿 默 斯 特 分 校 
的 计算 机 科学 家 ， 她 表明 模拟 计算 Canalog computing) 是 超 图 灵 
(super-Turing) ， 也 束 是 说 ， 拥 有 能 够 超越 数字 计算 机 的 计算 能 
力 。 避 着 可 以 根据 环境 进行 调整 和 学 习 的 神经 网 络 也 有 超 图 灵 计 算 能 
力 ， 而 普通 网 络 从 训练 集中 学 习 ， 然 后 其 结构 就 被 固定 下 来 ， 在 操作 时 
不 再 从 它们 的 实际 经 验 中 学 习 ， 这 一 点 和 图 灵机 是 一 样 的 。 但 是 ， 我 们 
的 大 脑 必 须 持 续 适 应 不 断 变 化 的 条 件 ， 这 就 使 我 们 具备 了 超 图 灵 能 
我 们 如 何 做 到 这 一 点 并 同时 拥有 以 前 的 知识 和 技能 ， 是 一 个 尚未 解决 的 











问题 。 哈 瓦 是 DARPA 终 身 学 习 项 目的 项 目 经 理 。 她 的 “终身 学 习 计 
划 ” 正 在 资助 一 些 高 级 研究 ， 这 些 研究 则 在 为 自治 系统 中 的 终身 学 习 创 
建新 的 集成 架构 。 
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11 
火爆 的 NIPS 


要 追寻 科学 思想 的 源头 并 非 易 事 ， 因 为 科学 是 分 布 在 不 同时 空中 很 
多 个 体 活动 的 集合 。 神 经 信息 处 理 系统 大 会 “NIPS 大 会 ， 见 图 11-1) 是 
本 书写 作 的 线索 。 到 目前 为 止 ， 很 明显 ， 这 一 会 议 不 仅 对 我 ， 也 对 整个 
科学 领域 产生 了 重大 影响 。 山 当时 还 没 成 为 我 妻子 的 比 阿 特 丽 斯 - 哥 伦 
布 ， 在 1990 年 的 NIPS 大 会 上 做 了 关于 SEXNET 的 演讲 。 在 结婚 后 不 久 的 
一 次 NIPS 大 会 上 ， 我 们 还 差点 分 手 。NIPS 大 会 让 人 着 迷 ， 白 天 都 是 一 
些 会 议 的 常规 环节 ， 墙 报 展示 环节 设 在 晚上 ， 直 到 后 半夜 各 个 会 场 仍然 
人 声 易 沸 。 有 次 我 在 凌晨 3 点 参加 完 一 个 环节 的 活动 ， 回 到 房间 没 找到 
比 阿 特 丽 斯 ， 当 时 我 意识 到 自己 麻烦 大 了 。 幸 运 的 是 ，28 年 后 ， 我 们 还 
在 一 起 。 











图 11-1 NIPS 大 会 的 标志 。30 年 前 成 立 的 NIPS 大 会 是 机 器 学 习 和 深度 学 习 领 域 的 顶级 会 议 。 图 片 
来 源 : NIPS 基 金 会 。 


为 什么 NIPS 如 此 受 欢迎 


深度 学 习 拥 有 很 长 的 历史 ， 可 以 追溯 到 NIPS 年 度 大 会 和 研讨 会 ， 以 
及 这 些 会 议 的 前 身 。20 世 纪 80 年 代 ， 来 自 世 界 各 地 的 工程 师 、 物 理学 
家 、 数 学 家 、 心 理学 家 和 神经 科学 家 在 NIPS 大 会 上 齐 聚 一 党 ， 探 讨 共同 
构建 人 工 智 能 的 新 方法 。 物 理学 家 分 析 神 经 网 络 模型 ， 心 理学 家 模拟 人 
类 认 知 ， 神 经 科学 家 模拟 神经 系统 并 分 析 神 经 记录 ， 统 计 学 家 探索 高 维 
空间 中 的 大 数据 集 ， 工 程 师 则 负责 构建 具备 类 人 的 视觉 和 听觉 的 设备 。 
人 工 智 能 就 以 这 样 的 方式 飞速 发 展 起 来 。 

1987 年 在 美国 丹佛 技术 中 心 举办 的 第 一 届 NIPS 大 会 ， 聚 集 了 400 位 
与 会 者 。 学 术 会 议 通 常 侧重 于 狭窄 的 研究 领域 ， 因 为 每 个 人 都 会 说 同样 
的 术语 ， 彼 此 间 能 顺畅 地 交流 。 但 是 早期 NIPS 大 会 的 科学 多 样 性 确实 令 
人 惊叹 。 生 物 学 家 在 面 对 其 他 生物 学 家 做 演讲 时 ， 会 用 生物 领域 的 术 
语 。 风 数学 家 和 物理 学 家 交流 的 情况 更 糟糕 ， 他 们 只 会 用 方程 式 说 
话 。 工 程 师 们 会 好 一 些 ， 因 为 他 们 构建 的 东西 不 言 自明 。 由 于 这 些 文化 
障碍 ， 跨 学 科研 究 虽 然 被 普遍 寄予 厚望 ， 但 事实 上 却 很 难 实现 。 在 早期 
的 NIPS 大 会 上 ， 好 像 每 个 人 都 在 自 说 上 自 话 。 


1987 年 NIPS 大 会 的 主要 会 议 结束 之 后 ， 与 会 者 在 附近 的 滑雪 胜地 
Keystone 义 聚集 到 一 起 开 了 个 研讨 会 ， 并 自行 组 织 了 小 组 会 议 。 在 一 个 
不 那么 正式 的 环境 里 ， 学 科 之 间 的 真正 沟通 开始 了 。 我 清楚 地 记得 ， 我 
们 在 Keystone 的 热 水 浴缸 里 泡 澡 的 时 候 ， 一 位 神经 学 博士 建议 当场 开展 
一 个 关于 海 免 的 研讨 会 。 地 当时 我 旁边 那 位 来 自 美国 国防 部 的 绅士 ， 

很 可 能 在 琢磨 海 兔 与 国家 安全 有 什么 关系 。 然 而 今天 ，NIPS 研 讨 会 都 是 
带 有 墙报 展示 环节 的 小 型 会 议 ， 其 中 一 些 研讨 会 吸引 了 数 千 名 与 会 者 。 


是 什么 让 NIPS 长 期 受到 追捧 呢 ? 首先 ， 是 让 人 激动 的 氛围 ， 因 为 我 
们 正 处 于 用 受 生物 学 启发 的 学 习 算 法 来 解决 复杂 计算 问题 的 前 沿 。 其 
次 ， 就 是 因为 爱德华 :波斯 纳 ( 见 图 11-2，， 他 是 加 州 理工 学 院 的 信息 
理论 家 ， 也 是 喷气 推进 实验 室 (Jet Propulsion Lab) 的 首席 技术 专家 。 
他 对 这 个 领域 有 着 长 远 的 眼光 ， 并 建立 了 NIPS 基 金 会 对 大 会 进行 管理 。 

一 个 组 织 的 文化 往往 能 反映 其 创始 人 的 特质 。 爱 德 华 赋予 了 NIPS 窒 












































智 、 机 敏和 幽默 感 的 独特 组 合 。 他 是 一 位 擅长 局 发 别人 的 老师 ， 同 时 也 
是 皇 有 成 效 的 领导 者 。 他 因为 文 持 暑 期 大 学 生 研 究 奖 学 金 项 目 
(Summer Undergraduate Research Fellowships， 简 称 SURF) 而 在 加 州 理 
工学 院 备 受 爱戴 ， 该 项 目 被 称 为 “加州 理工 星 冠 上 的 宝石 > 之 一 。 爱 德 华 
tH ae SEAR RRK (Phil Sote) 作为 公益 法 律 顾 问 。 数 十 年 间 ， 会 议 
规模 和 复杂 程度 都 在 不 断 增 长 。 在 索 特 尔 的 努力 下 ， 许 多 随 之 而 来 的 问 
题 都 妥善 地 得 到 了 解决 ， 因 此 大 会 得 以 每 年 顺利 举行 。 























ew 


图 11-2 加 州 理工 学 院 的 爱德华 。 波 斯 纳 ，NIPS 大 会 的 发 起 人 。 该 大 会 在 举办 了 30 年 后 仍然 颇 受 
欢迎 ， 这 跟 爱 德 华 的 远见 车 识 密 不 可 分 。 图 片 来 源 : 加 州 理工 学 院 。 








爱德华 在 我 妻子 还 很 年 轻 的 时 候 就 认识 她 了 ， 并 且 通 过 NIPS 单 独 续 
识 了 我 。 所 以 当 我 在 一 次 NIPS 大 会 中 突然 告诉 他 ， 比 阿 特 丽 斯 和 我 已 经 
订婚 (engaged) 了 的 时 候 ， 他 回答 说 : “致力 于 (engaged) 什么 ? "I4 
爱德华 于 1993 年 在 一 次 自行 车 事故 中 不 幸 身 亡 ， 随 后 我 接 蔡 他 成 为 NIPS 
基金 会 主席 ， 保 证 大 会 的 继续 发 展 和 和 繁荣。 我们 在 每 年 的 NIPS 大 会 上 都 
会 举办 爱德华 :波斯 纳 讲座 (Ed Posner Lecture) ， 以 表示 对 他 的 缅怀 和 
敬意 。NIPS 大 会 的 特 邀 演讲 嘉宾 通常 都 不 是 NIPS 主 流 领域 内 的 从 业 
者 ， 但 波斯 纳 讲座 主要 的 演讲 者 都 是 来 自我 们 这 个 群体 ， 并 对 该 领域 做 





出 重大 贡献 的 成 员 。 

NIPS 大 会 的 主席 团 由 一 群 杰 出 的 科学 家 和 工程 师 组 成 。 在 此 仪 列举 
几 位 。 斯 科 特 : 柯 元 帕特里克 是 一 位 物理 学 家 在 第 7 章 中 已经 介绍 
BD ， 他 发 明了 一 种 让 计算 机 先 “ 加 热 ” 再 慢 慢 “ 冷 却 ?， 来 解决 计算 难题 
的 “模拟 退火 算法 ”。 塞 巴 斯 带 安 : 特 隆 是 一 位 计算 机 科学 家 (在 第 1 章 中 
介绍 过 ) ， 他 赢得 了 2005 年 DARPA 自 动 驾 驶 挑战 大 赛 ， 为 今天 的 自动 
驾驶 汽车 打开 了 大 门 。 达 甘 妮 :科勒 (Daphne Koller) 是 一 位 计算 机 科 
学 家 ， 也 是 Coursera( 将 在 第 12 章 介绍 ) 的 联合 创始 人 ， 开 创 了 共 课 领 
域 的 先河 。 

大 数据 促成 了 深度 学 习 的 腾飞 。 不 久 前 ， 一 太 字 市 (terabyte， 即 
万 亿 字 市 ) 的 数据 还 需要 占用 整个 机 架 ; 而 现在 ， 在 单个 记忆 棒 上 束 可 
以 存储 一 太 字 市 的 数据 。 互 联网 公司 的 数据 中 心 存储 的 信息 以 招 字 节 
(petabyte) 计量 ， 每 拍 字 节 包 含 1024 太 字 节 〈1 拍 字 节 =101? 字 节 ) 。 自 
20 世 纪 80 年 代 以 来 ， 世 界 上 的 数据 量 每 三 年 翻 一 番 。 每 天 都 有 数 干 拍 字 
节 的 数据 被 上 传 到 互联 网 上 ， 其 总 容量 达到 了 泽 字 市 (zettabyte， 即 100 
HHE, RIAZ) 。 大 数据 爆炸 的 影响 不 仅 体现 在 科学 和 工程 领 
域 ， 也 延伸 到 了 社会 生活 的 方方面面 。 如 果 没 有 互联 网 上 的 数 百 万 张 图 
像 和 其 他 标签 数据 ， 就 无 法 训练 真正 的 大 型 深度 学 习 网 络 。 


世界 各 地 的 大 学 都 在 为 数据 科学 建立 新 的 中 心 、 研 究 机 构 和 科 系 。 

艾 利克 斯 : 萨 雷 (Alex Szalay) E. 1998 年 以 来 ， 就 在 斯 隆 数字 巡天 项 目 

(Sloan Digital Sky Survey， 下 文 简 称 SDSS;，http:/www.sdss.org/) 中 收 
集 天 文 数 据 。2009 年 ， 凭 借 自 己 的 这 份 经 历 ， 他 在 约翰 . 霍 普 金 斯 大 学 
建立 了 数据 密集 工程 和 科学 研究 所 (Institute for Data Intensive 
Engineering and Science， 简 称 IDIES) 。SDSS 使 得 天 文学 家 收集 的 数据 
总 量 成 干 倍 地 增长 ， 是 当今 世界 上 被 使 用 次 数 最 多 的 天 文学 设施 。 然 
而 ， 正 在 建设 中 的 大 型 综合 性 天 空 巡 天 望远镜 (Large Synoptic Sky 
Survey Telescope, https://www.lsst.org/) 收集 的 拍 字 节 规 模 的 数据 集 ， 
将 超越 斯 隆 数字 巡天 项 目 收集 的 太 字 节 规 模 的 数据 集 达 1000 倍 之 多 。 



































2013 年 ， 当 杨 立 昆 在 纽约 大 学 创立 数据 科学 中 心 时 ， 每 个 科 系 都 有 老师 
于 着 手中 的 数据 去 拜访 他 。2018 年 ， 加 州 大 学 圣迭戈 分 校 建立 了 新 的 
Haliaoglu 数 据 科学 研究 所 。 数 据 科 学 硕士 学 位 (Masters in Data 
Science ”degrees， 简 称 MDSs〉 正 变 得 像 工 商 管 理 人 硕士 (MBA) 一 样 受 
NE. 
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2012 年 在 太 浩 湖 举 行 的 NIPS 大 会 上 ， 深 度 学 习 领 域 的 研究 已 经 日 趋 
成 熟 〈 见 图 11-3) 。 在 这 次 大 会 上 ， 早 期 的 神经 网 络 先驱 杰 弗 里 . 辛 顿 
和 他 的 学 生 们 发 表 了 一 篇 论文 ， 文 中 指出 ， 多 层 神 经 网 络 在 识别 图 像 中 
的 对 象 方面 性 能 非常 出 色 。 冉 这 些 网 络 不 仅 比 现 有 计算 机 的 视觉 技术 
更 好 ， 它 们 甚至 已 经 处 于 一 种 完全 不 同 的 更 高 层次 中 ， 更 加 接近 人 类 的 
表现 水 准 。《 纽 约 时 报 》 刊 登 了 一 篇 关于 深度 学 习 的 文章 ， 同 时 
Facebook 宣 布 与 另 一 位 深度 学 习 先 驱 杨 立 昆 合 作成 立 一 个 新 的 人 工 智 能 
实验 室 ， 由 后 者 担任 创始 实验 室 主任 。 


Facebook H E PUT BS ot FL 5c (Ate = (Mark Zuckerberg) 参与 了 
2012 年 的 NIPS 深 度 学 习 研 讨 会 。 当 时 安保 成 了 令 人 头痛 的 问题 ， 但 也 吸 
引 了 更 多 的 与 会 者 ， 我 们 不 得 不 分 流 了 一 部 分 人 到 另外 一 个 播放 会 场 同 
步 视 频 的 房间 。 在 之 后 的 招待 会 上 ， 我 被 介绍 给 了 扎 克 伯 格 ， 他 问 了 些 
关于 大 脑 的 问题 。 他 对 心智 理论 特别 感 兴趣 。 在 心理 学 中 ， 有 一 个 关于 
心 镶 如 何 工作 的 内 隐 理 论 ， 我 们 以 它 为 指导 来 理解 他 人 。 我 们 给 朋友 发 
短信 时 ， 并 没有 意识 到 在 打字 时 大 脑 做 出 的 许多 决定 。 扎 克 伯 格 问 了 很 
多 问题 。“ 我 的 大 脑 如 何 构建 我 自己 的 心理 模型 ? ”我 的 大 脑 如 何 根据 
经 验 来 创建 其 他 人 的 心理 模型 ? ”我 的 大 脑 如 何 预测 其 他 人 的 未 来 行 
为 ? “其 他 物种 有 没有 心 乔 理 论 ? ”我 最 近 在 索 尔 克 人 研究 押 合作 组 织 了 
一 个 关于 心智 理论 的 研讨 会 ， 扎 克 伯 格 想 要 研讨 会 上 所 有 的 参考 资料 。 
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图 11-3 在 太 浩 湖 赌场 举办 的 2012 NIPS 大 会 是 深度 学 习 领 域 的 一 个 转折 点 ， 让 “神经 ”重新 回 
归 了 “神经 信息 处 理 系 统 ”。 图 片 来 源 : NIPS 基 金 会 。 








在 机 器 学 习 中 ， 谁 拥有 最 多 的 数据 ， 谁 就 是 赢家 ， 显 然 Facebook 上 所 
拥有 的 关于 人 们 点 赞 、 好 友和 照片 的 数据 让 其 他 人 只 能 望 其 项 背 。 利 用 
所 有 这 些 数 据 ，Facebook 可 以 创建 我 们 的 心智 理论 ， 并 用 它 来 预测 我 们 
的 偏好 和 政治 倾 回 ， 甚 至 有 一 天 可 能 会 比 我 们 更 了 解 我 们 自己 。 
Facebook 有 朝 一 日 会 成 为 奥 威 尔 小 说 中 老大 哥 的 化 身 吗 ?i 你 会 觉得 
这 是 一 个 令 人 不 宕 而 村 的 前 景 ， 还 是 发 现 有 一 个 能 满足 你 需求 的 数字 管 
家 很 方便 ? 我 们 可 能 会 问 Facebook 是 人 否 应 该 拥有 这 种 权力 ， 但 在 这 个 问 
题 上 我 们 也 许 并 没有 多 少 发 言 权 。 

尽管 我 们 在 太 浩 湖 的 赌场 举办 了 2012 年 和 2013 年 的 NIPS 大 会 ， 但 与 
会 者 都 避 开 了 赌 蝎 。 他 们 知道 赌场 庄家 获胜 的 可 能 性 更 大 ， 更 何况 ， 他 
们 正在 做 的 事情 比 赌博 更 令 人 兴奋 。 赌 博 会 让 人 上 净 ， 那 是 因为 多 巴 胺 
奖励 预测 误差 系统 是 我 们 大 脑 的 一 部 分 (在 第 10 章 中 讨论 过 ) 。 赌 场 已 

















经 优化 了 有 利于 博彩 的 条 件 : 获得 巨大 回报 的 允诺 ;随机 间隔 的 偶然 小 
胜 (奖励 ) 一 一 研究 已 经 证 明 ， 这 是 保持 实验 室 老 鼠 不 停 按 下 食物 按钮 
的 最 佳 方式 ， 在 老虎 机 上 获胜 时 触发 的 声音 和 灯光 ; ER SITE, 
将 由 光线 驱动 的 昼夜 节律 与 正常 的 日 夜 更 蔡 分 开 ， 人 然 症 你 下 注 。 不 过 从 
长 远 来 看 ， 庄 家 显然 赢得 更 多 。 

在 蒙特 利 尔 召 开 的 2015 年 NIPS 大 会 上 ，3800 名 国际 与 会 者 拥 入 了 蒙 
特 利 尔 会 议 中 心 。 会 议 开 场 时 的 深度 学 习 课程 环节 非常 受 欢 迎 ， 导 致 人 
满 为 串 。 出 于 防火 安全 方面 的 考虑 ， 我 们 不 得 不 遗 散 了 一 些 人 。 高 科技 
行业 中 几乎 所 有 拥有 大 数据 的 公司 都 采用 了 深度 学 习 技术 ， 这 一 趋势 正 
在 以 更 快 的 速度 扩散 。 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 开始 前 两 周 ， 
我 们 将 与 会 人 数 限制 在 5400 名 。 一 个 从 纽约 飞 来 的 人 很 失望 地 发 现 他 无 
法 在 现场 注册 。2017 年 在 长 滩 举 行 的 NIPS 大 会 在 注册 开放 12 天 后 就 限制 
注册 了 ， 与 会 者 达到 了 8000 人 。 如 果 自 2014 年 以 来 ， 每 年 出 席 会 议 的 人 
数 按 50% ”的 增 速 持续 下 去 ， 那 么 最 终 地 球 上 的 每 个 人 都 会 想 参 加 NIPS 
大 会 。 当 然 ， 泡 沫 最 终 会 破裂 ， 但 是 与 大 多 数 泡沫 一 样 ， 没 有 人 知道 这 
事 儿 什么 时 候 会 发 生 。 

来 日 科学 和 工程 部 门 的 许多 研究 人 员 继 续 聚 集 在 NIPS 大 会 上 ，30 午 
来 年 年 如 此 。 不 过 ， 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 上 ，5400 名 与 会 
者 中 有 40% ”的 人 是 第 一 次 参加 会 议 。 在 2016 年 之 前 ，NIPS 基 金 董事 会 
都 明智 地 决定 让 会 议 保 持 在 单一 会 场 举 行 ， 这 对 于 大 型 会 议 来 说 很 少 
见 。 其 背后 的 初衷 ， 是 让 每 个 人 都 能 坐 在 同一 个 房间 里 ， 防 止 场地 分 散 
化 。 但 在 2016 年 ， 单 一 会 场 变 成 了 双 会 场 ， 因 为 很 难 再 找到 足够 大 的 房 
间 装 下 所 有 人 。 尽 管 如 此 ， 这 也 远 远 少 于 大 多 数 其 他 大 型 会 议 中 常见 的 
10 个 会 场 。NIPS 的 文章 接受 率 一 直 保 持 在 20% 左 右 ， 低 于 大 多 数 期 刊 的 
接受 率 。NIPS 在 2016 年 举办 了 “机 器 学 习 中 的 女性 ”(Women in Machine 
Learning， 简 称 WiML) 会 议 ， 匡 为 巴塞 罗 那 带 来 近 600 名 女性 与 会 者 
( 占 与 会 者 总 人 数 的 10%) ， 有 1000 名 女性 参加 了 2017 年 在 长 滩 举 行 的 
会 议 。 多 样 性 继续 成 为 NIPS 大 会 的 标志 。 没 有 任何 一 个 领域 能 够 独立 汇 



































集 创 造 了 深度 学 习 的 多 样 化 人 才 。 


也 许 让 人 感到 意外 的 是 ， 虽 然 具 备 了 影响 如 此 多 行业 的 潜力 ， 保 护 
深度 学 习 知 识 产 权 的 专利 却 很 少 。 在 20 世 纪 80 年 代 ， 我 们 和 希望 能 让 学 习 
算法 成 为 一 个 新 的 科学 领域 的 基础 ， 同 时 认为 获得 专利 对 此 起 不 到 什么 
积极 的 作用 。 有 军 无 疑问 ， 现 在 很 多 公司 已 经 为 深度 学 习 的 特殊 应 用 提交 
了 专利 ， 因 为 公司 不 会 在 没有 保护 的 情况 下 对 新 技术 进行 大 规模 投资 。 














为 未 来 做 准备 


神经 网 络 学 习 的 重大 突破 每 30 年 束 会 发 生 一 次 ， 从 20 世 纪 50 年 代 引 
入 感知 器 开始 ， 到 20 世 纪 80 年 代 学 习 多 层 感知 器 算法 ， 再 到 2010 年 开始 
兴起 深度 学 习 。 其 中 每 个 阶段 都 经 历 了 一 段 繁 来 期 ， 在 短 时 间 内 取得 了 
飞跃 性 的 进展 ， 随 后 便 是 较 长 时 期 的 缓慢 发 展 。 但 是 其 中 一 个 不 同 点 在 
于 ， 随 着 每 次 复兴 ， 兴 盛 时 期 的 影响 一 直 有 增 无 减 。 最 新 的 增长 动力 来 
源 于 大 数据 的 普及 ， 而 NIPS 的 故事 早 就 为 这 一 天 的 到 来 做 好 了 准备 。 








[1] NIPS 会 议 中 的 所 有 文章 都 可 以 在 网 络 上 获取 : https://nips.cc/。 


[2] 为 了 体验 生物 学 家 的 行 话 ， 请 参考 从 最 近 的 一 篇 科学 综述 中 随机 抽取 的 这 句 话 :“ 少 突 
胶 质 细胞 包含 多 种 抑制 轴 突 再 生 的 重 日 质 ， 包 括 角 磷脂 相关 糖 蛋 日 ， 神 经 突 生长 抑制 剂 ‘/Nogo* 
， 少 突 胶 质 细胞 髓 东 糖 蛋白 和 信号 素 *。 (“Oligodendrocytes present a variety of proteins inhibitory 
to axon regrowth,including myelin-associated glycoprotein, the neurite-outgrowth inhibitor 
‘Nogo,’oligodendrocyte-myelin glycoprotein, and semaphorins.") B. Laha, B. K. Stafford,and A. D. 
Huberman, *Regenerating Optic Pathways from the Eye to the Brain,"Science 356, no. 6342 (2017): 
1032. 


[3] 这 位 神经 学 家 是 霍华德 . 拟 克 特 尔 (Howard Wachtel) , ， 他 当时 正在 科罗拉多 大 学 波 尔 德 
分 校 研究 海 免 的 神经 系统 。 


[4] Engaged 一 词 既 有 “订婚 ”之 意 ， 也 有 “致力 于 做 ..…...” 之 意 。 一 一 译 者 注 


[5] Krizhevsky, Sutskever, and Hinton, “ImageNet Classification with Deep Convolutional Neural 
Networks." 



























































[6] George Orwell, Nineteen Eighty-Four(London: Secker & Warburg, 1949). 这 本 书 最 近 有 了 新 


[四 “机 器 学 习 中 的 女性 ”(Women in Machine Learning) 这 一 组 织 成 立 于 2006 年 ， 为 机 器 学 
习 领 域 的 女性 创造 了 机 会 ， 并 推动 了 她 们 的 研究 。 请 参阅 http://wimlworkshop.org。 
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要 事 年 表 


1971 年 


诺 姆 。 乔 姆 斯 基 (Noam Chomsky) 在 《纽约 书评 》 杂 志 上 发 表 了 
《针对 斯 金 纳 的 驳斥 》 (The Case against B. F. Skinner) 一 文 ， 
这 篇 长 文 诱导 一 代 认 知 科 学 家 偏离 了 对 学 习 行 为 的 研究 。 

1982 年 


AFI. ER (Claude Shannon) 出 版 了 开创 性 的 书籍 《通信 的 
数学 理论 》 CA Mathematical Theory of Communication) ， 该 书 为 
当代 数字 通信 技术 黄 定 了 基础 。 

1989 年 


F e X4% (Carver Mead) 出 版 了 著作 《模拟 大 规模 集成 电路 和 
神经 系统 》 (Analog VLSI and Neural Systems) ， 开 创 了 基于 仿 
生 芯 片 的 神经 形态 工程 (neuromorphic engineering) 研究 领域 。 


2002 年 


M RMAF (Stephen Wolfram) 出 版 了 书籍 《一 种 新 的 
科学 》 (A New Kind of Science) 。 这 本 书 探 完 了 细胞 自动 机 
(cellular automata) 的 计算 能 力 ， 这 些 算法 比 神经 网 络 更 简单 ， 
但 是 仍 能 完成 强大 的 运算 。 


2005 年 
塞 巴 斯 蒂 安 。 特 隆 的 团队 赢得 了 DARPA 自 动 驾 驶 汽车 大 赛 。 
2008 年 


JEF LI o (2 Rp & X, (Tobias Delbrück) 研发 了 一 种 非常 成 
功 的 脉冲 视网膜 芯片 “动态 视觉 传感器 ” (Dynamic Vision 
Sensor， 简 称 DVS) ， 这 种 传感器 采用 异步 峰值 ， 而 不 是 像 现 在 的 数字 
摄像 机 利用 同步 帧 进行 图 像 捕 获 。 


2013 年 


白宫 宣布 启动 美国 “BRAIN 计 划 ”， 开 发 创新 的 神经 技术 ， 以 加 速 
我 们 对 大 脑 功 能 的 理解 。 


12 
智能 时 代 


认 知 计算 的 时 代 即 将 到 来 。 很 快 我 们 就 会 拥有 比 人 类 下 驶 技术 更 高 
超 的 自动 要 驶 汽车 。 我 们 的 房子 会 识别 出 我 们 的 身份 ， 预 见 我 们 的 习 
惯 ， 有 客人 到 访 时 会 提醒 我 们 。 最 近 被 谷歌 收购 的 众 包 网 站 Kaggle， 
经 举办 过 一 次 奖金 为 100 万 美元 的 用 CT 扫描 图 进行 肺癌 检测 的 竞赛 ， 它 
还 为 美国 国土 安全 部 举办 了 一 场 奖 金 达 150 万 美元 的 竞赛 ， 和 希望 寻找 到 
能 在 机 场 安检 时 检测 出 藏匿 物 的 技术 。 山 通过 认 知 计算 ， 医 生 的 助理 
将 有 能 力 诊 断 罕见 疾病 ， 提 高 整体 医疗 水 平 。 我 们 已 经 有 了 数 干 个 这 样 
的 应 用 ， 将 来 还 会 出 现 更 多 类 似 的 应 用 。 有 些 工 作 会 被 淘汰 ， 有 些 则 将 
被 创造 出 来 。 尽 管 认 知 计算 技术 十 分 具有 颠覆 性 ， 我 们 的 社会 还 需要 时 
间 来 吸收 和 适应 ， 但 它 对 人 类 来 说 并 不 构成 生存 威胁 。 相 反 ， 我 们 正在 
进入 一 个 发 现 和 启蒙 的 时 代 ， 我 们 会 变 得 更 聪明 ， 更 长 寿 ， 人 类 文明 也 
会 变 得 更 加 繁 采 。 

2015 年 ， 我 曾 在 由 IBM 赞 助 的 旧金山 认 知 计算 会 议 上 发 表演 
讲 。 世 IIBM 当 时 正在 对 沃 森 (Watson) 项 目 进行 大 规模 投资 ， 沃 森 是 

个 基于 大 量 事 实数 据 库 集合 的 程序 ， 窗 新 信息 的 范围 从 历史 到 流行 文 
人 化， 包罗万象 ， 可 以 使 用 自然 语言 接口 的 各 种 算法 进行 查询 。 肯 : 詹 宁 
斯 (Ken ”Jennings〉 曾 经 连续 192 天 在 74 场 智力 范 弗 市 目 《 人 危险 边缘 》 
(Jeopardy!) 中 启 得 了 胜利 ， 这 是 该 游戏 节目 历史 上 最 长 的 连 胜 纪 录 。 
2011 年 ， 沃 森 在 该 节目 中 击败 了 詹 宁 斯 ， 该 事件 引起 了 全 世界 的 注意 。 

在 从 酒店 出 发 到 会 场 的 出 租车 上 ， 我 无 意 中 听 到 了 后 座 两 名 IBM 管 
理 人 员 的 谈话 。IBM 当 时 正 要 推出 一 个 围绕 沃 森 的 平台 ， 该 平台 可 使 用 
非 结 构 化 数据 库 ， 来 组 织 和 回答 健康 和 金融 服务 等 专业 领域 的 问题 。 添 


























森 掌握 的 数据 比 任 何人 可 能 知道 的 还 要 多 ， 可 以 回答 问题 并 提出 建议 。 
当然 ， 与 其 他 机 器 学 习 程 序 一 样 ， 它 仍然 需要 人 类 提出 问题 ， 并 从 给 出 
的 建议 中 进行 选择 。 

IBM 早 已 裁撤 掉 了 硬件 部 门 ， 其 计算 机 服务 部 门 也 早已 风光 不 再 。 
IBM 在 沃 森 上 花费 了 巨 资 ， 想 要 依靠 其 软件 部 门 来 帮忙 完成 700 亿 美元 
的 营 收 计划 。 该 公司 在 慕尼黑 已 为 沃 森 物 联网 业务 投资 了 2 亿美 元 用 来 
建立 新 的 全 球 总 部 ， 团 这 是 IBM 在 欧洲 有 史 以 来 最 大 的 一 笔 投 资 ， 为 
的 是 满足 6000 多 个 客户 不 断 增长 的 利用 人 工 智能 来 改造 运营 业务 的 需求 
IBM 计划 在 全 球 投入 30 亿 美元 来 发 展 认 知 计算 ， 而 这 只 是 其 全 球 计 
划 的 一 部 分 。 但 许多 其 他 公司 也 在 对 AI 进 行 重大 投资 ， 现 在 想 要 断言 哪 
些 投注 会 赢 ， 哪 些 会 输 ， 还 为 时 尚 早 。 











21 世 纪 的 生活 





在 传统 医学 中 ， 通 常 采用 相同 的 治疗 方法 对 所 有 患 有 特定 病症 或 疾 
病 的 患者 进行 治疗 ， 但 现在 有 了 认 知 计算 ， 治 疗 已 变 得 更 加 个 性 化 ， 也 
更 精确 。 例 如 黑色 素 瘤 ， 过 去 患 上 这 种 疾病 的 人 就 等 同 于 被 判 了 死刑 
但 现在 已 经 可 以 通过 对 患者 的 癌 细 胞 进行 基因 测序 ， 并 针对 其 病症 设计 
出 独特 的 癌症 免疫 疗法 ， 以 停止 甚至 逆转 黑色 素 瘤 的 病情 发 展 。 虽 然 这 
种 疗法 目前 的 治疗 费用 为 25 万 美元 ， 但 当 对 患者 癌症 基因 组 测序 的 基础 
成 本 降 至 几 千 美元 ， 并 且 研 制 所 需 单 克 隆 抗体 的 成 本 仅 为 几 百 美元 时 ， 
最 终 几乎 每 个 黑色 素 瘤 患者 都 有 能 力 负担 相关 的 医疗 费用 。 从 大 量 患者 
那里 收集 到 足够 多 变异 和 疗效 方面 的 数据 后 ， 医 疗 决策 将 变 得 更 好 ， 且 
收费 更 低 。 一 些 类 型 的 肺癌 也 可 以 用 相同 的 方法 进行 治疗 。 制 药 公司 正 
在 投资 癌症 免疫 治疗 研究 ， 许 多 其 他 种 类 的 癌症 也 许 很 快 就 能 被 治愈 。 
如 果 没 有 机 器 学 习 方法 来 分 析 大 量 遗 传 数据 ， 这 一 切 都 不 可 能 实现 。 

我 曾 担任 过 NIH 院 长 的 顾问 委员 会 成 员 ， 为 推进 BRAIN 计划 "提供 


























建议 。 我 们 的 报告 强调 了 概率 和 计算 技术 的 重要 性 ， 该 技术 能 帮助 我 们 
解释 由 新 的 神经 记录 技术 产生 的 数据 。 多 机 器 学 习 算 法 现在 被 用 于 分 
析 同 时 来 自 数 千 个 神经 元 的 记录 ， 分 析 来 自 自 由 移动 动物 的 复杂 行为 数 
据 ， 以 及 从 电子 显微镜 的 一 系列 数字 图 像 中 自动 重建 三 维 解剖 回路 。 通 
过 对 大 脑 进行 逆 癌 工程 ， 我 们 将 揭秘 自然 界 自身 发 现 的 许多 新 算法 。 

NIH 在 过 去 的 50 年 中 资助 了 神经 科学 的 基础 研究 ， 但 当前 的 趋势 是 
将 越 来 越 多 的 资助 转向 了 能 够 尽快 实现 医疗 应 用 的 转化 研究 。 我 们 当然 
希望 能 转化 已 经 发 现 的 技术 ， 但 如 果 现 在 不 为 新 的 发 现 提 供 资金 ， 那 么 
从 现在 开始 的 50 年 里 ， 我 们 几乎 或 根本 没有 任何 技术 可 应 用 于 临床 。 这 
也 是 为 什么 现在 就 开展 一 些 基础 研究 项 目 非常 重要 ， 例 如 “BRAIN 计 
划 ”， 该 举措 能 够 帮助 我 们 找到 在 未 来 治疗 精神 分 裂 症 和 阿尔 北海 默 证 
等 衰弱 性 脑 部 疾病 的 方法 。 巴 | 








未 来 的 身份 认证 











2006 年 ， 黑 客 从 美国 退伍 军人 事务 部 一 个 员工 家 中 的 电脑 里 窃取 了 
2650 万 退伍 军人 的 社会 安全 号 码 和 出 生日 期 信息 。 退 伍 军人 行政 处 当时 
是 使 用 社会 安全 号 码 作为 其 系统 中 的 退伍 军人 标识 符 ， 黑 客 甚至 都 不 需 
要 解密 数据 库 。 有 了 社会 安全 号 码 和 出 生日 期 ， 黑 客 可 以 盗 取 任何 人 的 
身份 信息 。 


在 印度 ， 超 过 10 亿 的 公民 可 以 通过 指纹 、 虹 膜 扫 描 、 照 片 和 12 位 号 
份 写 码 ( 比 社会 安全 号 码 多 3 位 数字 ) 信息 进行 唯一 的 号 份 识 别 。 印 度 
的 Aadhaar 是 世界 上 最 大 的 生物 特征 识别 项 目 。 在 以 往 ， 一 位 想 要 得 到 
一 份 公共 文件 的 印度 公民 会 经 历 无 尽 的 等 待 ， 这 个 过 程 中 还 会 涉及 许多 
中 间 人 ， 每 个 人 都 会 向 他 索取 贿赂 。 而 如 今 ， 通 过 快速 生物 扫描 ， 公 民 
可 以 直接 获得 补贴 食品 权 和 其 他 福利 待遇 ， 许 多 没有 出 生 证 明 的 穷人 现 
在 也 拥有 了 便携 式 身 份 认证 ， 可 随时 随地 在 几 秒 钟 内 识别 出 身份 。 以 欺 
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法 再 被 窃 ， 除 非 小 偷 准备 切断 这 个 人 的 手指 并 摘除 他 的 眼球 。 凶 | 


“印度 国家 登记 处 ”是 南 丹 . 尼 勒 卡 尼 (Nandan Nilekani) 四 做 了 7 年 
的 一 个 项 目 ， 他 是 一 个 亿 万 富 全 ， 并 且 是 印度 外 包公 司 Infosys 的 联合 创 
始 人 。 尼 勒 卡 尼 庞大 的 数字 数据 库 已 经 帮助 印度 在 身份 数字 化 方面 超越 
了 许多 发 达 国 家 。 根 据 尼 勒 卡 尼 的 说 法 :“ 一 个 小 的 增 量 变化 乘 以 10 
亿 ， 就 是 一 个 巨大 的 飞跃 。..….. 如 果 10 亿 人 能 够 在 15 分 钟 内 拿 到 手机 ， 
而 不 用 花 上 一 周 ， 那 么 这 将 为 经 济 注入 一 股 巨 大 的 生产 力 。 如 果 有 100 
万 人 能 让 资金 自动 进入 他 们 的 银行 账户 ， 这 将 是 经 济 上 巨大 的 生产 力 攻 
px, 718 


在 至 受 拥有 数字 里 份 数 据 库 带 来 的 便利 的 同时 ， 我 们 也 失去 了 隐 
私 ， 尤 其 是 当 生 物 识别 码 与 其 他 数据 库 〈 如 银行 账户 、 医 疗 记录 和 犯罪 
记录 ) 以 及 其 他 公共 计划 《如 运输 ) 相关 联 时 。 隐 私 泄露 问题 在 美国 和 
许多 其 他 数据 库 间 互相 关联 的 国家 已 经 很 严重 了 ， 即 使 它们 的 数据 是 匿 
名 的 。 邮 显而易见， 无 论 我 们 是 否 愿意 ， 我 们 的 手机 都 已 经 在 追踪 我 
们 的 行踪 了 。 
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影 经 常 将 人 工 智能 描述 为 像 人 类 一 样 走路 和 说 话 的 机 器 人 。 不 要 
指望 AI 看 上 去 像 1984 年 的 科幻 电影 《终结 者 》 里 操 着 德国 口音 的 终结 者 
那样 。 不 过 ， 你 会 与 2013 年 的 科幻 电影 《她 》 中 了 萨 曼 莎 一 样 的 AI 声 音 交 
流 ， 并 和 2017 年 科幻 电影 《星球 大 战 ， 原 力 觉醒 》 中 R2-D2 和 BB-8 一 类 
的 机 器 人 进行 互动 。AI 已 经 是 日 常生 活 的 一 部 分 。 认 知 设备 ， 比 如 亚 马 
进 Echo 智 能 音箱 的 语音 助理 Alexa， 已 经 能 和 你 交谈 ， 并 很 高 兴 能 让 你 
的 生活 更 轻松 ， 更 有 满足 感 ， 就 像 2017 年 电影 《美女 与 野兽 》 中 的 时 钟 
和 茶具 一 样 。 生 活 在 一 个 拥有 那样 物种 的 世界 里 会 是 什么 样子 呢 ? 来 看 








看 我 们 迈 问 社交 机 器 人 的 第 一 步 吧 。 

目前 ， 人 工 智 能 的 进展 主要 集中 在 感官 和 认 知 方面 ， 运 动 和 行为 智 
能 的 进展 还 未 见 端 从 。 有 时 我 演讲 的 开场 日 便 是 ， 大 脑 是 已 知 宇宙 中 最 
复杂 的 设备 。 但 我 的 事 子 比 阿 特 丽 斯 是 一 位 医生 ， 她 经 常 提醒 我 说， 大 
脑 只 是 身体 的 一 部 分 ， 而 身体 比 大 脑 更 复 淋 ， 尺 管 喘 体 的 复杂 性 (从 运 
动 性 演变 而 来 ) 是 不 同 的 。 

我 们 的 肌肉 、 肌 有 圣 、 皮 肤 和 和 骨骼 能 够 积极 地 运 应 世界 的 变迁 、 地 心 
引力 和 其 他 同类 。 从 内 部 来 说 ,我们 的 喘 体 是 化 学 加 工 的 奇迹 ， 可 以 将 
食物 转化 为 做 工 精细 的 身体 部 件 。 它 们 是 由 内 而 外 工作 的 终极 3D 打 印 
机 。 我 们 的 大 脑 从 号 体 各 个 部 分 的 内 脏 传 感 大 获得 输入 ， 这 些 传 感 右 不 
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决定 ， 并 在 所 有 相互 竞争 的 要 求 之 间 维 持平 衡 。 从 真正 意义 上 来 说 ， 我 
们 的 吴 体 是 大 脑 不 可 或 缺 的 组 成 部 分 ， 这 是 具 喘 认 知 Cembodied 
cognition) 的 核心 原则 。 了 0 


哈 维 尔 : 英 维 兰 (Javier Movellan) (412-1) 来 自 西班牙 ， 曾 经 是 
加 州 大 学 圣迭戈 分 校 神经 计算 研究 所 机 器 感知 实验 室 的 教员 和 联合 主 
任 。 他 相信 ， 通 过 打造 能 够 与 人 类 互动 的 机 器 人 ， 我 们 将 比 采 用 传统 实 
验 研究 更 多 地 了 解 认 知 。 他 搭建 了 一 个 机 器 人 砚 儿 ， 当 你 对 它 微 笑 时 ， 
它 也 对 你 微笑 ， 鼎 得 路 人 的 喜爱 。 哈 维尔 研究 了 婴儿 与 母 杀 的 互动 ， 他 
得 出 的 结论 是 ， 岗 儿 会 尽量 从 母亲 那里 获得 更 多 的 微笑 ， 同 时 尽量 减少 
Bom. DL 
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(Teletubby) ， 有 着 丰富 的 面部 表情 ， 眉 毛 能 够 扬 起 表现 出 有 兴趣 ， 相 
机 眼睛 能 够 转 来 转 去 ， 手 臂 也 可 以 抓 取 东西 〈 见 图 12-2) 。 在 加 州 大 学 
蔡 迭 苞 分 校 儿童 早期 教育 中 心 ，18 个 月 大 的 幼儿 通过 Rubi 腹 部 的 平板 与 
CHET Hal. 
































图 12-1 SHER + BH Apo K-PRERPROMEAATALEST (CAFRA) Ege 
的 采访 。 哈 维尔 率先 在 教室 里 推出 了 社交 机 器 人 ， 并 为 社交 机 器 人 Rubi 编 写 了 程序 ， 以 引起 18 
个 月 大 幼儿 的 注意 。 图 片 来 源 : 罗 杰 。 宾 汉 姆 。 


幼儿 很 难 取悦 ， 他 们 的 注意 力 非常 短暂 。 他 们 玩 几 分 钟 玩具 吏 会 失 
去 兴趣 ， 把 它们 扔 到 一 边 。 他 们 会 如 何 与 Rubi 互 动 呢 ? 为 了 安全 起 见 ， 
Rubi 不 是 按照 工业 强度 打造 的 ， 于 是 第 一 天 ， 男 孩 们 就 扯 掉 了 它 的 用 
膊 。 经 过 一 些 修理 和 加 载 软件 补丁 后 ， 哈 维尔 再 次 进行 了 和 尝试。 这 一 
次 ， 机 器 人 要 执行 的 程序 是 ， 当 手 句 被 拉 开 时 要 放声 大 尖 。 这 阻止 了 男 
孩 们 的 “上 暴力” 行为 ， 并 且 让 女孩 们 争 相 拥抱 Rubi。 这 是 社交 工程 领域 学 
到 的 重要 一 课 。 


幼儿 通过 指向 房间 内 的 物体 (如 时 钟 ) 与 Rubi 玩 页 。 如 果 Rubi 不 能 
在 0.5~1.5 秒 的 时 间 窗 口内 将 视线 移 向 物体 ， 那 么 幼儿 就 会 失去 兴趣 并 走 
开 。 如 果 反 应 太 快 ，Rubi 的 机 械 性 就 太 明 显 了 ; 如 果 反 应 太 慢 ，Rubi 又 
会 让 孩子 们 感到 很 无 聊 。 一 旦 互惠 关系 形成 ， 孩 子 们 就 会 将 Rubi 看 作 是 
一 个 有 感情 的 生命 ， 而 不 是 一 个 玩具 。 当 Rubi 被 带 走 ( 到 维修 店 进行 升 
级 ) 后 ， 孩 子 们 会 感到 不 安 。 他 们 会 被 告知 Rubi 感 到 不 和 舒服， 会 在 家 休 
息 一 天 。 在 一 项 研究 中 ，Rubi 被 要 求教 幼儿 学 习 芬 兰 语 单词 ， 他 们 学 习 








图 12-2 Rub ji 在 教室 里 与 幼儿 们 进行 互动 。Rubi 的 头 可 以 旋转 ， 眼 睛 是 相机 ， 嘴 和 届 毛 都 十 分 富 
有 表现 力 。Rubi 头 顶 上 浓密 的 光纤 会 随 着 它 的 心情 而 改变 颜色 。 图 片 来 源 : 哈 维 尔 。 莫 维 兰 。 


之 前 对 将 Rubi 引 入 谍 符 环境 的 顾 碟 之 一 ， 是 教师 可 能 会 担心 目 己 在 
某 一 天 被 机 器 人 取代 。 但 事实 恰恰 相反 : 老师 对 Rubi 表 示 欢 迎 ， 因 为 它 
可 以 作为 一 位 辅助 管理 班级 秩序 的 助手 ， 特 别 是 在 教室 里 有 访客 时 。 一 
个 能 够 彻底 革新 早期 教育 的 实验 是 “ 千 个 Rubi 项 目 ”(thousand Rubi 
project) 。 这 个 想法 是 批量 生产 Rubi， 将 它们 放 在 上 千 个 教室 中 ， 每 天 
通过 互联 网 从 数 千 次 实验 中 收集 数据 。 教 育 研究 的 一 个 问题 是 ， 在 一 所 
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异 ， 特 别 是 教师 之 间 的 差异 。“ 千 个 Rubi 项 目 ”* 也 许 能 够 考察 许多 关于 如 
何 改进 教育 实践 的 想法 ， 并 且 可 以 探究 在 各 地 服务 于 不 同 社 会 经 济 群 体 
的 学 校 之 间 的 差异 。 虽 然 能 够 让 项 目 开 展 起 来 的 资源 一 直 没 有 到 位 ， 但 
这 仍然 是 一 个 好 主意 ， 应 该 有 人 来 跟 进 。 

双 腿 站 立 的 机 器 人 很 不 稳定 ， 需 要 一 个 复杂 的 控制 系统 来 防止 它们 
翻 倒 。 而 且 事实 上 ， 婴 儿 需 要 12 个 月 才能 学 会 走路 而 不 会 摔 倒 。 在 第 2 
章 中 已 经 做 过 简短 介绍 的 罗 德 尼 . 布 鲁 殉 斯 〈 见 图 12-3) ， 想 要 打造 能 
够 像 昆 虫 一 样 走 路 的 6 条 腿 机 恬 人 。 他 发 明了 一 种 新 型 控制 医 ， 可 以 对 6 
条 腿 的 动作 进行 排序 ， 能 够 让 机 堪 人 赃 螂 问 前 移动 并 保持 稳定 。 他 那 开 
创 性 的 想法 是 ， 让 腿 部 与 环境 进行 的 机 械 交 互 作用 代 蔡 抽象 的 计划 和 计 
算 。 他 认为 ， 要 让 机 右 人 完成 日 党 任务， 它们 较 高 的 认 知 能 力 应 该 基于 
感官 运动 (sensorimotor) 与 环境 的 相互 作用 ， 而 不 是 抽象 的 推理 。 大 
象 具有 高 度 的 社会 性 ， 有 着 强大 的 记忆 力 ， 并 且 还 是 器 械 天 才 ， 了 引 但 
它们 不 会 下 国际 象棋 。 了 41990 年 ， 布 鲁 克 斯 继续 创立 了 iRobot， 迄 今 
为 止 已 经 卖 掉 了 超过 1000 万 个 Roombas 扫 地 机 器 人 来 清洁 更 多 的 地 板 。 


工业 机 器 人 具有 坚硬 的 关节 和 强大 的 伺服 电机 ， 这 使 得 它们 看 起 来 
和 感觉 起 来 都 很 机 械 化 。2008 年 ， 布 鲁 殉 斯 创立 了 Rethink Robotics” 
司 ， 该 公司 设计 出 了 一 个 关节 柔韧 ， 可 以 转动 手臂 的 机 器 人 Baxter。 它 
的 每 个 手臂 可 以 按 要 求 来 移动 ， 还 会 自行 编程 以 重复 执行 过 的 动作 顺 
序 ， 人 们 不 必 再 编写 一 个 程序 来 移动 Baxter 的 手臂 了 。 
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图 12-3 Fie * He AMERRE ABaxter, CELH- ESAE EAT. H 
鲁 克 斯 是 一 位 连续 创业 者 ， 之 前 创建 了 iRobot， 生 产 了 扫地 机 器 人 Roombas， 现 在 他 又 创建 了 
Rethink， 生 产 Baxter。 图 片 来 源 : 罗 德 尼 。 布 鲁 克 斯 。 


莫 维 兰 比 布鲁克 斯 更 进一步 ， 开 发 出 了 一 种 名 为 "Diego San” EH 
本 制造 ) 的 机 器 人 宝宝 HL ， 其 电动 机 是 气动 的 〈 由 气压 驱动 ) ， 对 比 
大 多 数 工业 机 器 人 使 用 的 刚性 转 矩 电机 ，Diego San 所 有 的 44 个 关节 都 更 
柔软 〈 见 图 12-4) 。 制 作 它们 是 基于 这 样 一 个 灵感 ， 当 我 们 拿 起 某 件 东 
西 时， 我们 身体 中 的 每 一 块 肌肉 都 会 在 一 定 程 度 上 被 举动 〈 如 果 我 们 一 
次 只 移动 一 个 关节 ， 看 起 来 就 会 像 机 器 人 ) 。 这 使 我 们 能 够 更 好 地 适应 
不 断 变化 的 负载 情况 以 及 与 世界 的 互动 。 大 脑 可 以 同时 自然 流畅 地 控制 
身体 中 的 所 有 自由 度 一 所 有 关节 和 肌肉 一 一 而 DiegoSan 项 目的 目标 是 
找 出 大 脑 是 怎么 做 到 这 一 点 的 。Diego San 的 脸 上 有 27 个 运动 部 件 ， 可 以 
表达 各 种 各 样 的 人 类 情感 。HL6 机 器 人 宝宝 的 动作 非常 逼真 。 虽 然 哈 维 
尔 有 几 个 成 功 的 机 器 人 项 目 ， 但 Diego San 并 不 是 其 中 之 一 。 他 并 不 知道 


如 何 使 机 器 人 婴儿 的 表现 像 人 类 婴儿 那样 流畅 。 





—— 
a) a 


图 12-4 机 器 人 宝宝 Diego San。 和 气压 传动 装置 让 所 有 关节 都 能 平稳 移动 ， 这 样 就 能 跟 人 类 握手 
了 。 面 部 由 大 卫 。 汉 森 (David Hanson) 和 汉 森 机 器 人 公司 提供 。 关 于 机 器 人 面部 表情 的 动 
画 ， 可 以 参考 “Diego lnstalled”， 由 哈 维 尔 。 英 维 兰 提供 ， 

https://www. youtube. com/watch? v-knRyDcnUcAU/ 。 


Nlat CAB WAAR RE TS 


你 能 想象 当 你 在 iPhone (苹果 手机 〉 上 看 到 股价 暴跌 ，iPhone 问 你 
为 什么 不 高 兴 ， 会 是 怎样 一 种 感觉 吗 ? 你 的 面部 表情 是 情绪 的 窗口 ， 深 
度 学 习 现 在 已 经 可 以 探 进 这 个 窗口 了 。 传 统 上 ， 人 们 认为 认 知 和 情绪 是 
大 脑 两 个 独立 的 功能 。 一 般 认为 ， 认 知 是 皮层 功能 (cortical 
function〉， 而 情绪 是 皮层 下 的 功能 (subcortical function) 。 事 实 上 ， 





有 些 皮 层 下 结构 可 以 调节 情绪 状态 ， 比 如 奋 仁 核 Camygdala) 。 当 情绪 
水 平 很 高 ， 特 别 是 感到 仆 惧 的 时 候 ， 查 仁 核 就 会 起 作用 ， 但 这 些 结构 与 
大 脑 皮 层 有 强烈 的 相互 作用 。 例 如 ， 在 社交 互动 中 ， 禁 仁 核 的 参与 会 增 
强人 脑 对 该 事件 的 记忆 。 认 知 和 情绪 是 彼此 交织 的 。 


在 20 世 纪 90 年 代 ， 我 与 加 州 大 学 旧金山 分 校 的 心理 学 家 保罗 . 艾 克 
€ (Paul Ekman) 〈 见 图 12-5) 有 过 合作 。 艾 克 时 是 世界 着 名 的 面部 表 
ERR, ALS Called) (Lie to Me) 系列 中 卡尔 :莱特 曼 (Cal 
Lightman) 博士 在 真实 世界 中 的 原型 ， 但 他 本 人 比 剧 中 的 卡尔 要 和 善 很 
多 。 艾 克 曼 曾 去 过 巴布亚 新 几内亚 ， 试 图 了 解 前 工业 时 代 的 文化 是 否 像 
我 们 一 样 ， 能 够 做 出 情绪 化 的 面部 表情 。 他 在 研究 过 的 所 有 人 类 社会 中 
发 现 了 六 种 普 所 的 情感 表达 : PROB. UE. THUR. TR. RAIDS 
从 那 以 后 ， 其 他 第 见 的 面部 表情 也 被 提取 了 出 来 ， 但 人 们 在 对 这 些 表 情 
的 理解 上 并 没有 达成 共识 。 有 些 表 达 ， 如 恺 惧 ， 在 一 些 孤 立 的 社会 中 有 
着 不 同 的 解释 。 

1992 年 ， 艾 殉 曼 和 我 组 织 了 一 个 由 美国 国家 科学 基金 会 (NSF) 52 
助 的 关于 面部 表情 理解 的 规划 研讨 会 。L 呈 在 那个 时 期 ， 要 获得 对 面部 
表情 研究 的 资金 困难 重重 。 我 们 的 研讨 会 将 神经 科学 、 电 子 工 程 和 计算 
机 视觉 等 方面 的 研究 人 员 ， 连 同心 理学 家 聚集 到 了 一 起 ， 为 表情 分 析 领 
域 揭 开 了 新 篇 章 。 这 件 事 对 我 来 说 是 一 个 启示， 尽管 面部 表情 的 分 析 在 
科学 、 医 学 和 经 济 等 诸多 领域 都 扮演 着 重要 角色 ， 但 其 重要 性 却 一 直 被 
基金 机 构 所 忽视 。 


























[12-5 1967 年 ， 保 罗 。 艾 克 曼 和 巴布亚 新 几内亚 原 住 民 。 他 找到 了 6 种 常见 的 面部 情感 表达 的 
证 据 ， 包 括 快 乐 、 悲 伤 、 愤 怒 、 惊 证、 恐惧 和 厌恶 。 保 罗 曾 为 美剧 《 别 对 我 撒谎 》 提 供 咨 询 ， 
以 保证 每 一 集 的 内 容 有 科学 依据 。 卡 尔 。 莱 特 曼 博 士 的 角色 大 致 上 是 以 艾 克 曼 为 原型 塑造 出 来 
的 。 图 片 来 源 : 保罗 。 艾 克 曼 。 


艾 克 曼 开 发 了 面部 动作 编码 系统 (Facial Action Coding System, 以 
下 简称 FACS) 来 监控 面部 44 块 肌肉 的 状态 。 由 艾 克 曼 培 训 的 FACS 专 家 
需要 花费 一 个 小 时 来 标记 长 度 为 一 分 钟 的 视频 ， 每 次 标记 一 帧 。 面 部 表 
情 是 动态 的 ， 可 以 延续 知 干 秒 ， 但 是 艾 死 曼 发 现 ， 有 些 表 情 只 持续 了 几 
帧 。 这 些 “ 微 表情 ”泄露 了 大 脑 被 抑制 的 情感 状态 ， 常 沼 能 说 明 ， 有 时 还 
会 揭示 无 意识 的 情绪 反应 。 例 如 ， 在 婚姻 咨询 环节 中 出 现 的 细微 的 厌恶 
表情 ， 就 是 一 个 预示 婚姻 会 失败 的 可 靠 的 信号 。L8] 

在 20 世 纪 90 年 代 ， 我 们 使 用 了 一 些 演员 的 视频 录像 来 训练 反 回 传播 
神经 网 络 ， 对 FACS 进 行 自 动 化 。 这 些 训练 有 素 的 演员 可 以 像 艾 克 曼 那 
样 控制 脸 上 的 每 一 块 肌肉 。1999 年 ， 由 我 的 研究 生 玛 丽 安 :斯 图 尔 特 - 巴 








特 利 特 (Marian Stewart-Bartlett， 见 图 12-6)〉 利 用 反问 传播 训练 的 网 
络 ， 在 实验 室 识别 面部 表情 的 准确 率 达 到 了 96%， 前 提 是 要 具备 完美 的 
照明 ， 周 正 的 面部 角度 ， 以 及 对 视频 进行 手动 时 间 分 割 。L3 引 这 个 网 络 
的 识别 效果 很 不 错 ， 于 是 1999 年 4 月 5 日 ， 玛 丽 安 和 我 在 黛 安 : 索 耶 
(Diane Sawyer) 主持 的 《 早 安 美国 》 (Good Morning America) 节目 
中 同 公众 展示 了 这 一 成 果 。 在 成 为 加 州 大 学 圣迭戈 分 校 神 经 计算 研究 所 
的 一 名 教师 后 ， 玛 丽 安 接 着 义 开 发 了 计算 机 表情 识别 工具 箱 (Computer 
Expression Recognition Toolbox， 以 下 简称 CERT) 。 [201 随 着 计算 机 的 
速度 变 得 越 来 越 快 ，CERT 已 经 能 够 进行 实时 分 析 ， 可 以 标记 视频 流 中 
不 断 变化 的 人 类 面部 表情 。 

2012 年 ， 玛 丽 安 和 哈 维尔 : 葛 维 兰 将 面部 表情 的 自动 分 析 技 术 商业 
化 ， 创 立 了 一 家 名 为 "Emotient” 的 公司 。 保 罗 . 艾 死 曼 和 我 为 这 家 公司 担 
任 科 学 顾问 。Emotient 开 发 的 深度 学 习 网 络 能 够 以 96% 的 准确 紊 ， 在 各 
种 不 同 的 照明 条 件 下 ， 利 用 非 正 面 面 部 信息 实时 地 对 自然 行为 做 出 判 
斯 。 在 Emotient 的 一 个 演示 中 ， 其 网 络 在 几 分 钟 内 天 检测 到 唐纳德 : 特 上 时 
if (Donald Trump) 在 共和 党 的 首 场 初 选 辩论 中 ， 对 一 个 焦点 小 组 蕊 了 
的 情绪 影响 最 大 。 相 比 之 下 ， 民 意 调 查 人 员 花 了 数 天 时 间 才 得 出 了 同样 
的 结论 ， 专 家 们 更 是 在 几 个 月 之 后 才 认 识 到 ， 人 情感 投入 是 争取 到 选民 的 
关键 。 焦 点 小 组 中 最 强烈 的 面部 表情 是 愉悦 ， 其 次 是 臣 惧 。 此 外 ， 
Emotient 的 深度 学 习 网 络 在 尼尔森 收视 率 (Nielsenratings〉 调查 结果 发 
布 前 的 几 个 月 ， 就 预测 到 了 哪些 电视 剧 将 大 热 。Emotient 于 2016 年 1 月 锌 
苹果 公司 收购 ， 玛 丽 安 和 哈 维 尔 现 在 均 在 苹果 公司 任职 。 












































图 12-6 正在 演示 面部 表情 分 析 技 术 的 玛丽 安 。 斯 图 尔 特 - 巴 特 利 特 。 时 间 轴 上 显示 的 是 深度 学 
习 网 络 的 输出 ， 正 在 识别 面部 表情 中 快乐 、 悲 伤 、 惊 讶 、 恐 惧 、 愤 怒 和 厌恶 的 情绪 。 图 片 来 
源 : 玛丽 安 。 斯 图 尔 特 -巴特 利 特 ，Robert Wright/LDV Vision Summit 2015. 





在 不 久 的 将 来 ， 你 的 iPhone 可 能 不 仅 会 问 你 为 什么 不 高 兴 ， 还 可 能 
帮助 你 冷静 下 来 。 


13 年 前 ， 在 温哥华 举行 的 2005 年 NIPS 大 会 上 ， 我 和 加 州 大 学 圣迭戈 
分 校 计 算 机 科学 与 工程 系 的 同事 加 里 . 科 特 雷 尔 〈Gary Cottrell) 在 一 起 
吃 早 餐 。 加 里 属于 20 世 纪 80 年 代 PDP 团 队 最初 的 一 批 成 员 ， 也 是 PDP 团 
队 仍 留 在 加 州 大 学 圣迭戈 分 校 为 数 不 多 的 几 人 之 一 。 他 是 20 世 纪 60 年 代 
最 后 几 个 仍 在 坚持 神经 科学 研究 团体 中 的 一 员 ， 留 着 马尾 办 和 灰白 的 胡 
有 顷 。 他 读 到 了 NSEF 发 表 的 一 项 声明 ， 要 求 为 “学 习 科 学 中 心 ”(Science of 





Learning Centers) 提供 提案 。 其 中 让 他 感 兴趣 的 内 容 ， 是 连续 5 年 每 年 
500 万 美元 的 预备， 而 且 还 可 以 再 延长 5 年 。 他 想 提交 一 份 项 目 申 请 ， 并 
询问 我 是 否 愿 意 帮 忙 。 他 当时 说 ， 如 果 成 功 了 ， 他 就 不 用 再 写 别 的 基金 
申请 了 。 我 告诉 他 说 ， 如 宋 成 功 的 话 ， 这 项 经 费 能 让 他 终身 从 事 这 一 事 
业 了 。 他 笑 了 起 来 ， 之 后 我 们 开始 了 合作 。 


最 终 我 们 的 申请 被 批准 了 ， 如 我 所 料 ， 尽 管 每 年 提供 300 页 的 年 度 

报告 很 让 人 崩溃， 但 取得 的 科学 成 果 非 党 惊人。 我们 的 时 间 动 态 学 习 中 
ty (Temporal Dynamics of Learning Center， 以 下 简称 TDLC) KAX HK 
全 球 18 个 机 构 的 100 多 名 研究 人 员 。 在 由 NSF 资 助 的 6 个 学 习 科 学 中 心 
里 ， 我 们 这 个 是 最 以 神经 科学 和 工程 为 导 同 的 ， 我 们 将 机 器 学 习 的 最 新 
进展 纳入 了 这 些 项 目 中 ( 见 图 12-7) 。 上 Rubij 和 CERT 是 由 TDLC 资 助 
的 两 个 项 目 。 我 们 还 有 一 个 移动 脑 电 图 实验 室 ， 让 被 试 者 可 以 在 虚拟 环 
境 中 自由 漫游 ， 同 时 记录 他 们 的 脑 电 波 。 在 大 多 数 脑 电 图 实验 室 中 ， 被 
试 者 必须 坐 着 不 动 ， 眼 睛 都 不 能 上 朋 ， 以 避免 产生 假象 。 我 们 使 用 SICA 
来 抵消 运动 假象 ， 让 我 们 能 够 观察 被 试 者 主动 探索 环境 ， 与 其 他 人 互动 
时 的 大 脑 活动 。 























图 12-7 新 的 学 习 科学 包括 机 器 学 习 和 神经 科学 ， 以 及 来 自 心理 学 和 教育 的 见解 。 图 片 来 源 : 
Meltzoff , Kuhl,Movellan, and Sejnowski, “Foundations for a New Science of 
Learning, ”图 1。 


以 下 是 TDLC 研 究 人 员 开 展 的 众多 项 目 中 的 一 部 分 。 


罗 格 斯 分 子 和 行为 神经 科学 中 心 (Center for Molecular and 
Behavioral ^ Neuroscience at Rutgers) 的 芯 普 利 :本 纳 斯 奇 (April 
Benasich) 开发 了 一 项 测试 ， 可 以 根据 宝宝 的 听觉 感知 时 间 来 预测 砚 儿 
是 人 否 会 在 语言 习 得 和 学 习 能 力 上 存在 缺陷 ， 她 指出， 这 些 缺 陷 可 以 通过 
目 适 应 地 控制 声 首 出 现 的 时 间 和 奖励 反馈 来 纠正 ， 以 便 宝宝 能 够 发 育 出 
正常 的 听力 、 语 言 和 学 习 能 力 。 上 3 引 这 些 结果 所 针对 的 实验 对 象 年 龄 跨 
度 从 3 个 月 到 5 岁 。 即 使 正常 发 育 的 婴儿 也 会 从 互动 环境 中 受益 。 艾 普 利 
于 2006 年 创立 了 AAB Research LLC， 让 快速 听觉 处 理 技术 (rapid 
auditory processing technology， 简 称 RAPT) 进入 普通 家 庭 ， 以 提高 婴儿 











的 学 习 能 

玛丽 安 :斯 图 尔 特 -巴特 利 特 和 哈 维 尔 : 莫 维 兰 使 用 机 器 学 习 自 动 登记 
学 生 的 面部 表情 ， 革 鹿 当 学 生 看 起 来 很 泪 形 ， 似 乎 不 太 理 解 授 课 内 容 
时 ， 教 师 可 以 收 到 提醒 并 采取 措施 。 利 用 深度 学 习 技 术 ， 这 一 过 程 如 今 
可 以 自动 且 准 确 地 同时 记录 班级 中 每 个 孩子 的 表情 信息 。 在 市 场 营 销 、 
精神 病 学 和 法 医学 等 领域 ， 还 有 很 多 的 面部 表情 分 析 应 用 有 待 开 发 。 

加 州 大 学 对 和 迭 臣 分 校 的 哈 罗 德 : 帕 施 勒 Harold Pashler) 和 科 罗 拉 
多 大 学 博 尔 德 分 校 的 迈克 尔 : 英 泽 尔 (Michael Mozer) 研究 了 12 年 级 的 
学 生 在 数 年 内 的 学 习 表 现 ， 以 扩充 先前 针对 大 学 生 为 期 数 月 的 研究 。 研 
究 结 果 表 明 ， 个 性 化 的 时 间 分 散 式 复习 比 短期 的 填 鸭 式 复习 更 能 改善 对 
学 习 材 料 的 长 期 记忆 。 革 中 他 们 表示 ， 当 学 习 材 料 需要 在 学 生 的 记忆 中 
停留 较 长 时 间 时 ， 学 习 的 最 佳 间 隔 时 间 最 好 设 得 长 一 些 。 他 们 在 语言 课 
程 中 为 学 生 们 制定 了 最 佳 复习 时 间 表 ， 并 帮助 他 们 取得 了 优异 的 成 绩 。 

TDLC 的 博士 后 研究 员 贝 丝 . 罗 戈 夫 斯 基 〈Beth Rogowsky) . 274% 
斯 大 学 的 保 拉 : 塔 拉 尔 (Paula Tallal〉 和 范 德 堡 大 学 的 芭 芭 拉 : 卡 尔 霍 恩 
(Barbara Calhoun) 表明 ， 在 使 用 口头 或 书面 材料 的 学 习 方法 之 间 没 有 
统计 学 差异 ， 而 且 ， 无 论 是 即时 理解 还 是 延迟 理解 ， 偏 好 的 学 习 方 式 和 
教学 方法 之 间 都 不 存在 联系 。 上 gj 学 后 使 用 自己 更 偏好 的 方式 学 习 不 会 
带 来 任何 积极 的 效果 ， 这 也 就 意味 着 大 型 企业 宣传 的 针对 个 人 学 习 方 式 
的 培训 和 测试 材料 ， 并 不 会 提升 课堂 的 学 习 效 果 。 

保 拉 . 塔 拉 尔 在 2014 年 启动 的 1500 万 美元 的 “全 球 学 习 X 奖 ”(Global 
Learning X-Prize〉 中 发 挥 了 重要 作用 。 该 奖项 鼓励 教育 创新 ， 其 目标 是 
开发 开源 代码 和 可 扩展 软件 ， 使 发 展 中 国家 的 儿童 能 够 在 18 个 月 内 掌握 
基本 的 阅读 、 写 作 和 算术 技能 。 为 “全 球 学 习 X 奖 ”所 做 研究 的 积极 影 
啊 ， 将 在 未 来 数 十 年 内 在 全 世界 引起 回 啊 。 

TDLC 的 科学 总 监 安 德 里 亚 : 千 叶 (Andrea Chiba) 在 2014 年 上 海 “学 
习 科 学 国际 大 会 > 上 介绍 了 关于 所 有 的 学 习 行 为 如 何 改变 大 脑 结构 的 研 
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具备 了 一 定 的 潜力 ， 对 那些 能 力 不 足 或 者 年 龄 过 大 的 学 习 者 来 说 ， 教 育 
只 是 一 种 浪费 。 世 界 各 地 仍然 存在 着 巨大 的 人 类 潜力 有 待 挖掘 。 

我 们 发 现 教 育 中 最 大 的 问题 不 是 科学 方面 的 ， 而 是 来 自 社 会 和 文 
化 。 美 国有 13500 个 学 区 ， 每 个 学 区 都 有 自己 的 学 校 董事 会 ， 负 责 决 定 
课程 、 教 师资 格 和 最 佳 实践 ， 需 要 数 十 年 才能 实现 这 些 目 标 ， 并 有 针对 
性 地 处 理 这 些 问题 。 在 教师 实施 教学 之 前 ， 他 们 还 必须 管理 教室 秩序 ， 
这 对 于 低 年 级 和 市 中 心 的 学 校 来 说 尤其 具有 挑战 性 。 提 出 要 求 的 家 长 们 
可 能 不 会 意识 到 教学 资源 的 匮乏 导致 了 教师 中 的 职业 倦 合 现象 频 发 ， 而 
教师 工会 的 影响 也 难 辞 其 竺 ， 后 者 往往 阻碍 了 日 积 月 累 的 努力 。 

教学 从 根本 上 来 说 是 一 项 劳动 密集 型 活动 。 最 优质 和 最 有 效 的 教学 
方式 是 让 经 验 丰富 的 成 人 教师 和 学 生 之 间 进 行 一 对 一 交流 。 芋 8 我 们 背 
负 着 一 个 专 为 大 众 教 育 而 设计 的 流水 线 系统 ， 对 学 生 按 年 龄 进行 划分 ， 
教师 在 大 班 里 年 复 一 年 地 传授 相同 的 课程 。 这 可 能 是 一 种 生产 汽车 的 好 
方法 ， 在 劳动 力 只 接受 基本 教育 就 能 满足 社会 需求 的 年 代 ， 这 样 的 方法 
还 算 行 得 通 。 但 是 当 工 作 岗 位 需要 更 高 水 平 的 培训 和 终身 学 习 来 更 新 工 
作 技 能 时 ， 这 个 系统 就 落伍 了 。 诚 然 ， 作 为 成 年 人 ， 回 到 学 校 可 能 是 痛 
兰 和 不 切实 际 的 。 我 们 正在 经 历 的 信息 革命 已 经 超越 了 劳动 力 世 代 更 蔡 
的 时 间 尺 度 。 和 幸运 的 是 ， 出 现在 互联 网 上 的 新 技术 可 能 会 改变 我 们 的 学 
习 方 式 。 学 习 科 学 中 心 于 2006 年 创立 时 ， 我 们 并 没有 预见 到 ， 互 联网 正 
在 重 构 我 们 的 学 习 版 图 。 




















成 为 更 好 的 学 习 者 


慕 课 在 2011 年 突然 流行 起 来 ，《 纽 约 时 报 》 发 表 了 一 篇 热门 文章 ， 
提 到 了 一 门 大 受 欢迎 的 斯 坦 福 大 学 人 工 智能 在 线 课程 。 上 着 大 量 的 学 生 
参加 紧 读 ， 他 们 在 互联 网 上 这 一 前 所 未 有 的 学 习 行 为 ， 在 全 世界 引起 了 








广泛 的 关注 。 几 乎 在 一 夜 之 间 ， 很 多 新 公司 获得 了 融资 ， 这 些 公 司 专 注 
于 开发 以 及 免费 在 线 发 布 世界 上 一 些 最 优秀 的 教育 者 的 讲座 。 只 要 能 连 
上 了 网， 人们 就 能 随时 随地 观看 这 些 讲座 。 除 了 讲座 之 外 ， 课 程 内 容 还 包 
括 测 验 、 考 试 、 供 学 习 者 交流 的 论坛 、 助 教 辅导 ， 以 及 自发 组 织 的 本 

地 “见面 会 ”， 方 便 学 生 在 非 正 式 的 环境 中 讨论 课程 内 容 。 莫 课 的 受众 面 
己 经 大 大 增加 了 一 一 2015 年 ,，“ 葵 诬 和 人 ”的 数量 翻 了 一 番 ， 从 估算 的 1700 
万 增加 到 了 3500 多 万 。 莫 课 绕 开 了 现 有 教育 体系 中 的 所 有 限制 因素 。 


2013 年 1 月 ， 在 加 州 大 学 尔 湾 分 校 由 美国 国家 科学 院 主办 的 一 次 会 
议 上 ， 我 遇 到 了 双色 拉 : 奥 克利 。 尽 管 她 读书 的 时 候 在 数学 和 科学 方面 
表现 灾 佳 ， 但 她 现在 是 位 于 密歇根 州 奥 本 山 和 罗切斯特 山 市 的 奥 殉 兰 大 
学 的 一 名 电子 工程 学 教授 。 她 是 曾 主 修 人 文科 学 专业 的 美国 陆 苗 上 尉 ， 
回 到 学 校 之 前 ， 她 在 白 令 海 的 拖网 渔船 上 担任 俄语 翻译 。 后 来 她 元 服 了 
自己 在 数学 方面 的 心理 障碍 ， 获 得 了 电子 工程 博士 学 位 。 在 会 议 的 晚宴 
上 ， 我 发 现 色 色拉 和 我 在 学 习 方面 有 着 相似 的 看 法 ， 她 当时 正在 写 一 本 
书 ， 书 名 是 《学 习 之 道 》 (A Mind for Numbers: How to Excel at Math 
and Science) 。 于 是 我 邀请 她 到 加 州 大 学 圣迭戈 分 校 为 高 中 学 生 和 老师 
们 举办 一 次 TDLC 讲 座 。 

芭 芭 拉 受 到 了 学 生 们 的 热烈 欢迎 ， 很 明显 她 是 一 位 鼎 有 天 赋 的 老 
师 。 她 的 方法 和 实用 性 见解 源 于 我 们 对 大 脑 的 了 解 ， 所 以 我 们 联手 为 
Coursera 开 发 了 一 门 茶 课 ， 名 为 “学 会 如 何 学 习 : 帮助 你 掌握 复杂 学 科 的 
强大 智力 工具 ”( 见 图 12-8; https://www.coursera.org/learn/learning-how- 
to-learn/) ， 于 2014 年 8 月 推出 。 它 目前 是 世界 上 最 受 欢 迎 的 共 座 ， 在 头 
四 年 里 注册 的 学 习 者 超过 300 万 ， 并 且 每 天 还 会 吸引 1000 个 来 自 200 多 个 
国家 的 新 学 员 。“ 学 会 如 何 学 习 ” 根 据 我 们 对 大 脑 学 习 方 式 的 了 解 ， 为 你 
提供 了 成 为 更 好 学 习 者 所 需 的 工具 。 我 们 学 习 者 的 反馈 非常 积极 ， 于 是 
我 们 又 开发 了 第 二 个 名 为 “思维 转换 ”(〈Mindshift) Wask, A EARE 
想 要 转业 或 改变 生活 方式 的 人 。 这 两 门 梭 谍 课 程 的 资料 都 可 以 在 网 络 上 
倪 费 获取 。 
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图 12-8 芭 芭 拉 。 奥 克利 介绍 “学 会 如 何 学 习 ” 莫 课 。 已 有 超过 300 万 学 员 参 加 了 该 课程 ， 使 其 
成 为 全 球 最 受 欢 迎 的 互联 网 课程 。 图 片 来 源 : BEG RAI. 





“学 会 如 何 学 习 ” 这 一 课程 ， 就 如 何 成 为 更 好 的 学 习 者 ， 如 何 处 理 测 
试 焦虑 ， 如 何 避 免 拖 延 ， 以 及 我 们 对 大 脑 怎 样 学 习 的 认识 等 话题 提供 了 
实用 性 的 建议 。 这 是 一 门 为 期 一 个 月 的 免费 课程 ， 由 长 度 为 5~10 分 钟 的 
视频 剪辑 、 小 测验 和 综合 测试 组 成 ， 现 已 被 翻译 成 20 多 种 语言 。 课 程 的 
基石 之 一 ， 束 是 当 你 正在 做 别 的 事情 时 ， 你 的 大 脑 可 以 在 潜意识 中 帮 你 
ERST. FA WM (Henri ”Poincaré€)〉 是 19 世 纪 一 位 杰出 的 数 
学 家 ， 他 曾经 描述 自己 如 何 最 终 解决 了 一 个 数学 难题 。 当 时 他 已 经 紧张 
地 工作 了 好 几 个 星期 ， 但 仍然 一 无 所 获 。 于 是 他 度假 去 了 。 当 他 在 法 国 
南部 踏 上 一 辆 公共 汽车 时 ， 问 题 的 解决 方案 突然 就 出 现在 了 他 的 脑海 
中 ， 他 的 大 脑 中 有 一 部 分 区 域 在 他 享受 假期 的 时 候 仍 然 在 处 理 这 个 问 
题 。 他 知道 自己 找到 了 证 明 问 题 的 正确 方法 ， 并 在 返回 巴黎 时 完成 了 
它 。 他 之 前 对 这 个 问题 的 深入 研究 已 经 使 他 的 大 脑 做 好 了 充分 的 准备 ， 
这 样 他 的 潜意识 就 可 以 在 他 放松 的 时 候 继 续 处 理 这 个 问题 。 这 两 个 阶段 
对 创造 力 而 言 同等 重要 。 

















令 人 惊讶 的 是 ， 即 使 在 睡觉 的 时 候 ， 你 的 大 脑 也 会 在 你 毫 不 知情 的 
情况 下 解决 问题 。 但 是 ， 只 有 在 你 入 睡 之 前 仍 专注 于 解决 问题 的 前 提 
下 ， 大 脑 才能 做 到 这 一 点 。 于 是 你 早上 醒 来 的 时 候 ， 一 种 新 的 见解 就 会 
从 脑海 中 跳出 来 ， 帮 助 你 解决 问题 〈 尽 管 这 种 情况 不 会 经 常 发 生 ) 。 在 
休假 或 入 睡 前 的 高 强度 思考 ， 对 激活 你 的 大 脑 非常 重要 否则， 它 就 有 
可 能 去 处 理 其 他 问题 了 。 这 种 方式 并 不 限于 数学 或 科学 问题 ， 如 果 你 最 
近 在 思考 一 个 社交 问题 ， 你 的 大 脑 就 会 像 解决 数学 和 科学 问题 一 样 努力 
解决 它 。 

“学 会 如 何 学 习 "最 令 我 们 感到 欣慰 的 成 果 之 一 ， 就 是 收 到 了 来 自 快 
乐 学 习 者 的 信件 ， 感 谢 我 们 为 他 们 提供 了 最 好 的 课程 ， 或 者 这 门 课 如 何 
影响 了 他 们 的 职业 选择 。[30] 教 师 也 写 信 给 我 们 ， 提 到 他 们 正在 将 "学 
会 如 何 学 习 * 这 门 课 的 经 验 融 入 自己 的 课堂 中 。 


我 们 最 初 的 目标 是 教授 高 中 生 和 大 学 生 “ 学 会 如 何 学 习 ”， 但 后 来 发 
现 这 些 人 的 比例 不 到 学 习 这 门 课程 总 人 数 的 1%。 因 为 学 校 一 直 以 来 都 
被 要 求 以 “共同 核心 ”(Common Core) 测试 为 目标 进行 教学 ， 他 们 没 时 
间 教 学 生 如 何 学 习 ， 而 后 者 往往 对 学 生 们 的 学 业 更 有 帮助 。 要 求 各 个 学 
区 都 采用 ”学 会 如 何 学 习 ” 的 教学 模式 将 是 一 个 艰难 的 任务 ， 毕 竟 学 校 的 
运营 预算 是 有 限 的 。 学 区 也 不 打算 修改 他 们 的 课程 ， 把 “学 会 如 何 学 
习 ” 纳 入 大 规模 的 教学 。 任 何 大 范围 的 尝试 都 涉及 课程 表 的 调整 、 教 师 
再 培训 和 新 教材 的 开发 ， 这 个 过 程 相当 的 费时 费力 。 但 不 论 如 何 ， 我 们 
都 需要 12 岁 的 孩子 在 进入 高 中 前 接触 到 这 项 课程 。 色 芭 拉 和 我 针对 这 和 群 
读者 写 了 一 本 书 ， 希 望 这 些 年 轻 的 学 生 在 进入 会 频繁 过 到 数学 难题 的 中 
学 时 期 之 前 ， 就 能 接触 到 我 们 的 技巧 。BB 


与 学 校 课程 “要 么 太 多 ， 要 么 没有 "的 学 习 模式 不 同 ， 营 课 更 像 是 你 
随时 可 以 挑选 和 阅读 的 书 ， 学 习 者 们 更 倾向 于 “放养 式 " 的 学 习 方法 ， 有 
针对 性 地 选择 符合 他 们 迫切 需求 的 课程 。 莫 课 原本 被 认为 是 传统 教室 的 
蔡 代 品 ， 现 在 它 在 教育 领域 占据 了 一 个 互补 性 的 位 置 ， 这 与 其 他 教学 场 
所 不 同 。 它 以 独特 的 方式 满足 了 学 习 者 的 需求 ， 而 传统 教育 方式 往往 做 



































不 到 这 一 点 。 例 如 ， 蔡 课 已 经 补 翻 转 课 党 (flipped classes) 这 一 教育 方 
式 所 采纳 ， 学 生 们 可 以 在 方便 的 课余 时 间 观 看 选 定 的 讲座 ， 老 师 则 会 针 
对 课程 内 容 在 课堂 上 引导 学 生 们 进行 讨论 。 我 们 的 教育 体系 是 为 工业 时 
代 设 计 的 ， 学 校 所 传授 的 知识 曾经 是 你 今后 维持 工作 ， 以 及 作为 一 名 有 
生产 力 的 公民 所 需 的 基础 知识 。 然 而 现在 ， 学 生 刚 一 毕业 ， 学 校 传授 的 
那些 知识 就 已 经 过 时 了 。 桶 谍 直 接 进 入 家 许 ， 是 教育 系统 的 最 后 一 环 。 
对 Coursera 进 行 的 人 口 统计 表明 ， 大 多 数 在 线 学 习 者 的 年 龄 都 在 25~35 多 
之 间 ， 他 们 当中 超过 一 半 的 人 接受 过 大 学 教育 。 这 些 都 是 在 工作 中 需要 
新 技能 ， 并 在 网 上 进行 自学 的 年 轻 人 。 我 们 的 教育 系统 需要 更 多 根本 性 
的 改变 ， 让 我 们 的 大 脑 能 够 适应 在 经 济 信 息 领 域 中 快速 扩张 的 岗位 技能 
需求 。 例 如 ， 通 过 互联 网 收集 信息 需要 一 些 判断 力 和 基本 技能 ， 即 能 够 
制定 合适 的 搜索 条 件 ， 并 甄别 错误 的 搜索 路 径 。 可 惜 的 是 ， 学 校 似 乎 没 
有 时 间 教 授 基 本 的 互联 网 操作 技能 ， 即 使 学 生 们 能 够 从 学 习 如 何 积极 寻 
求 信息 ， 而 不 是 被 动 接受 课程 中 受益 。 

优 达 学 城 〈Udacity) 是 由 因 上 自动 驾驶 汽车 而 名 声 大 噪 的 塞 巴 斯 带 安 
- 特 隆 创立 的 另 一 家 制作 芭 课 的 教育 机 构 。 除 了 提供 免费 课程 外 ， 优 达 
学 城 还 与 希望 提升 自身 员工 技能 的 公司 开展 了 合作 。 优 达 学 城 打造 了 符 
合 公司 需 求 的 莫 课 ， 员 工 们 也 有 动力 去 学 习 这 些 课程 。 对 于 雇主 、 员 工 
和 优 达 学 城 来 襄 ， 这 是 共 启 。 优 达 学 城 也 提供 了 一 系列 专项 课程 ， 比 如 
自动 驾驶 汽车 拷 术 (费用 为 800 美 元 ) ， 和 学员 学 成 之 后 可 以 获得 纳米 学 
位 (nanodegree) ， 如 果 在 6 个 月 内 找 不 到 工作 还 能 收 到 全 额 退 款 。 卫 人 
[3 引 传统 学 校 之 外 的 教育 机 构 发 展 迅 速 ， 慕 课 可 以 为 终身 学 习 提供 各 种 
解决 方案 。 

我 们 后 续 的 一 门 么 课 “* 思 维 转换 : 突破 学 习 障 碍 并 发 所 你 的 潜 
能 ”(MindShift: Break through Obstacles to Learning and Discover Your 
Hidden Potential, https://www.coursera.org/learn/ mindshift/) 128-2017 
^EAH HEM. ORE 5 CEU BoE NAB ee A, D4lxk 
ThA RAZA, JPA RAISE) AER) 来 前 明 ， 当 你 想 以 


























东 种 方式 改变 你 的 生活 时 可 能 会 面 对 的 各 种 难题 。 就 我 而 言 ， 我 是 从 物 
理学 转 到 了 神经 生物 学 领域 ， 但 在 另 一 个 案例 中 ， 一 位 成 功 的 音乐 会 独 
奏 家 放弃 了 他 的 职业 生涯 ， 转 而 成 为 一 名 医生 。 转 行 这 一 现象 已 经 变 得 
RRR, “思维 转换 ”的 读 程 设计 冒 在 降低 该 过 程 的 难度 。 该 门 读 程 
现在 在 世界 上 最 受 欢 迎 的 聚 谍 中 排名 第 三 。 

为 一 种 成 为 更 好 的 学 习 者 的 方式 ， 是 利用 交互 式 电脑 游戏 。 类 似 
Lumosity 这 样 的 公司 提供 了 在 线 游戏 ， 声 称 可 以 提高 玩家 的 记忆 力 和 注 
意 力 。 问 题 是 ， 文 持 这 种 说 法 的 研究 往往 凤毛麟角 ， 或 者 质量 不 高 ， 特 
别 是 在 将 培训 转移 到 实际 任务 方面 。 但 是 ， 这 一 切 都 还 处 于 早期 阶段 ， 
更 出 色 的 研究 正 开始 帮助 我 们 辨别 有 效 和 无 效 的 方法 。 结 果 往 往 令 人 大 
开眼 界 ， 甚 至 有 悖 直觉 。 

















训练 你 的 大 脑 


在 广泛 改善 认 知 功能 方面 最 有 效 的 视频 游戏 是 那些 奶 逐 僵尸 ， 在 战 
争 中 杀 死 坏人 ， 以 及 极速 赛车 之 类 的 游戏 。 日 内 瓦 大 学 的 达芙妮 : 色 菲 
AM (Daphne Bavelier) 表示 ， 玩 《荣誉 勋章 : HX) (Medal of 
Honor: Allied Assault) 等 第 一 人 称 视角 的 射击 游戏 改善 了 人 们 的 感知 、 
注意 力 和 认 知 能 力 ， 尤 其 是 视觉 、 多 任务 处 理 和 任务 转换 ， 并 且 引 导 他 
们 更 快 地 制定 出 决策 。 忆 站 她 总 结 说 ， 玩 这 类 射击 游戏 可 能 会 让 年 长 者 
的 大 脑 反 应 与 年 轻 人 的 一 样 快 (对 于 任何 上 了 年 纪 的 人 来 说 都 是 好 消 
EO 。 但 是 一 些 射击 游戏 也 可 能 会 有 损 长 期 记忆 。 己 外 每 款 游戏 都 有 不 
同 的 优点 和 缺点 ， 需 要 单独 进行 分 析 。 

加 州 大 学 旧金山 分 校 的 亚当 : 格 萨 雷 CAdam Gazzaley) 定制 了 一 球 
叫 作 NeuroRacer 的 三 维 视 频 游 戏 ， 能 够 提高 你 的 多 任务 处 理 能 力 。 有 研 
究 表 明 ， 大 脑 中 神经 调节 剂 的 活动 对 于 注意 力 、 学 习 和 记忆 有 着 重要 的 
作用 。 忆 本 在 NeuroRacer 中 ， 玩 家 沿 着 蛇 蜡 崎 岂 的 道路 驾驶 汽车 ， 同 时 

















还 要 留意 随机 弹出 的 各 种 标志 。 这 就 要 求 玩 家 调用 多 种 认 知 技能 ， 例 如 
注意 力 和 任务 切换 能 力 ， 进 行 多 任务 处 理 。 在 测试 NeuroRacer 时 ， 亚 当 
和 同事 们 发 现 ， 在 经 过 训练 以 后 ， 被 试 者 的 这 些 技能 得 到 了 显著 提高 ， 

并 在 工作 记忆 和 持续 关注 方面 达到 了 较 高 的 水 平 ， 然 而 这 些 并 不 属于 训 
练 的 一 部 分 。 此 外 ， 他 们 的 表现 还 优 于 未 经 训练 的 20 岁 年 轻 人 ， 并 且 在 
中 止 训练 的 6 个 月 后 ， 这 些 能 力 依然 没 有 消退 。 忆 中 NeuroRacer 目 前 正在 
被 用 于 临床 试验 ， 为 患 有 注意 力 缺 陷 和 记忆 障碍 的 患者 提供 治疗 。 

1997 年 ， 疝 在 罗 格 斯 的 保 拉 : 搭 拉 尔 和 疝 在 加 州 大 学 旧金山 分 校 的 
Woe Nh RPE EAT (Michael Merzenich) 联合 创建 了 一 家 名 为 “Scientic 
Leaming” 的 公司 ， 为 患 有 语言 和 阅读 障碍 CRE) 的 儿童 提供 帮 
助 。 语 音 理解 取决 于 能 人 否 捕捉 到 快速 的 声学 转换 。 例 如 ， 听 
到 “ba” “ga” 或 “da" 之 间 的 差异 取决 于 音节 开头 的 室 秒 范围 内 的 时 间 差 
寞 。 无 法 检测 到 这 些 时 间 差 异 的 孩子 在 学 习 中 会 处 于 务 势 ， 因 为 他 们 无 
法 分 辩 包 含 这 些 声 首 的 词汇 。 要 学 习 阅 读 ， 孩 子 们 必须 能 够 识别 和 区 分 
单词 中 字母 代表 的 简短 声音 。 塔 拉 尔 和 梅 泽 尼 奇 开发 了 被 称 为 “Fast 
ForWord” 的 一 系列 计算 机 游戏 ， 它 首先 通过 在 音节 、 单 词 和 人 句子 中 夸大 
声学 时 差 来 提高 孩子 的 听觉 判 断 、 语 言 和 阅读 理解 能 力 。 随 着 孩子 们 在 
各 种 语言 和 阅读 水 平 上 的 提高 ， 这 种 时 间 差 异 会 被 缩短 。[ 引 Fast 
ForWord 在 教育 游戏 的 同类 产品 中 得 到 了 很 高 的 评价 ， 有 6000 所 学 校 和 
超过 250 万 名 儿童 使 用 过 该 系列 。 它 们 也 在 超过 55 个 国家 被 用 来 帮助 孩 
子 学 习 英 语 这 门 第 二 语言 。 梅 泽 尼 奇 后 来 又 开发 了 
BrainHQ Chttps://www.brainhg.com) ， 这 是 一 款 基 于 相似 科学 原理 的 游 
戏 ， 则 在 减 绥 老 年 人 的 认 知 衰退 。 

你 还 可 以 通过 锻炼 大 脑 来 提高 运动 技能 。 加 州 大 学 河 滨 分 校 的 亚 伦 
FE (Aaron Seitz) 开发 了 一 个 能 够 改善 视觉 感知 和 反应 时 间 的 计算 机 
程序 。 在 使 用 这 个 程序 后 ， 棒 球 队 队 员 普 过 反映 视力 变 得 更 好 了 ， 被 三 
振 出 局 的 次 数 变 少 了 ， 还 创造 出 了 更 多 跑马 ， 并 在 赛季 的 54 场 比赛 中 多 
赢得 了 4~5 场 比赛 。L 册 赛欧 开发 了 一 款 名 为 *UltimEyes” 的 廉价 应 用 程 



































序 ， 将 他 的 研 完成 果 对 公众 开放 。 不 过 联邦 贸易 委员 会 已 经 分 止 了 这 和 
游戏 的 传播 ， 直 到 更 多 的 研究 能 进一步 证 实 他 的 说 法 。 呈 1 


在 玩 考 验 反 应 时 间 的 游戏 时 ， 某 些 认 知 技能 上 的 提高 倾 问 于 转移 到 
其 他 认 知 技能 上 。 但 在 玩 许 多 其 他 特定 领域 游戏 ， 如 记忆 游戏 时 ， 这 种 
转移 并 不 存在 。 虽 然 我 们 设计 的 交互 式 视频 游戏 正在 变 得 越 来 越 好 ， 能 
够 改善 我 们 的 大 脑 功能 ， 增 加 游戏 的 趣味 性 ， 还 能 制 成 应 用 程序 ， 但 这 
种 转移 发 生 的 条 件 仍 然 有 待 研究 。 全 球 范围 内 认 知 改善 的 潜力 不 可 估 
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智能 商业 





在 2015 年 NIPS 大 会 开幕 式 上 ， 我 穿着 全 美 运动 汽车 竞赛 协会 
(NASCAR) 风格 的 夹克 欢迎 与 会 者 ， 上 面 贴 着 我 们 所 有 42 个 赞助 商 的 
商标 〈 见 图 12-9) 。 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 上 上， 赞助 商 有 65 
家 ， 一 件 夹克 上 已 经 放 不 下 了 。 而 到 了 2017 年 ， 多 达 93 家 赞助 商 支 持 了 
在 长 滩 举 行 的 NIPS 大 会 。 这 种 爆炸 性 的 增长 迟早 会 结束 ， 但 它 在 社会 上 
的 回响 可 能 会 持续 数 十 年 。 这 些 赞 助 公司 派 遗 招聘 人 员 参 加 NIPS 大 会 ， 
渴望 聘用 市 场 上 缺乏 的 优秀 研究 人 员 。 我 的 许多 同事 已经 加 入 了 谷歌 、 
微软 、 亚 马 进 、 苹 果 、Facebook、 百 度 和 其 他 许多 初创 公司 。 它 们 还 从 
大 学 里 抢 和 于 人 才 。 据 考 巴 斯 带 安 : 特 隆 估 计 ， 当 一 家 像 Otto 或 Cruise 这 样 
的 自动 驾驶 初创 公司 被 一 家 大 公司 收购 时 ， 相 当 于 在 每 个 机 器 学 习 专 家 
身上 都 花费 了 1000 万 美元 。[2] 


2013 年 ， 谷 歌 收购 了 杰 弗 里 : 辛 顿 的 公司 DNNresearch， 当 时 这 家 公 
司 由 他 和 他 在 多 伦 多 大 学 的 两 名 研究 生 在 运营 着 。 杰 上 弗 里 : 辛 顿 于 是 成 
了 谷歌 的 员工 。 他 现在 可 以 获得 比 他 曾 在 多 伦 多 昼 慢 过 的 更 庞大 的 计算 
能 力 ， 但 更 重要 的 是 谷歌 所 拥有 的 海量 数据 。 谷 歌 大 脑 (Google 
Brain) 是 杰 夫 : 迪 因 (Jeff Dean) 领导 的 由 才华 横 淤 的 工程 师 和 科学 家 

















组 成 的 杰出 人 才 团 队 。 迪 恩 设 计 了 和 谷歌 所 有 的 服务 都 依赖 的 MapReduce 
文件 系统 。 当 你 让 谷歌 翻译 一 段 文字 时 ， 它 现在 所 使 用 的 束 是 迪 恩 的 谷 
歌 大 脑 团 队 设 计 的 深度 学 习 技 术 。 当 你 搜索 一 个 关键 词 时 ， 深 度 学 习 会 
对 搜索 结果 进行 排名 。 当 你 与 谷歌 助手 (Google Assistant) 进行 交谈 
时 ， 它 会 使 用 深度 学 习 来 识别 你 的 话 。 随 着 与 你 的 对 话 进行 得 更 加 流 
畅 ， 它 将 使 用 深度 学 习 为 你 提供 更 好 的 服务 。 谷 歌 已 经 在 全 力 地 钻研 深 
度 学 习 。 其 他 高 科技 行业 也 一 样 ， 但 这 只 是 一 个 开始 。 





Tc zi: 


WO Jie 


WS Microsoft €2 mos] 


| À o rwo siom Ie 


| A 3 


SN 





图 12-9 我 在 2015 年 蒙特 利 尔 NIPS 大 会 上 的 穿着 ， 一 件 “ 全 美 运 动 汽车 竞赛 协会 ”风格 的 夹克 。 
会 议 的 赞助 商 五 花 八 门 ， 从 顶级 互联 网 公司 到 金融 和 媒体 公司 ， 它 们 都 在 深度 学 习 领 域 进行 了 
投资 。 图 片 来 源 : NIPS 基 金 会 。 


美国 在 人 工 智 能 方面 正在 失去 领先 地 位 ， 在 你 阅读 这 本 书 的 时 候 ， 
其 他 国家 可 能 已 经 超越 了 我 们 。 多 伦 多 矢量 研究 所 (The Vector Institute 
in Toronto) 于 2017 年 3 月 启动 ， 加 拿 大 政府 和 安大略 省 政府 ， 多 伦 多 大 
学 以 及 私营 企业 对 其 提供 了 1.75 亿 加 元 的 资金 支持 。 呈 站 矢量 研究 所 的 
目标 是 成 为 世界 领先 的 人 工 智 能 研究 中 心 ， 培 养 最 多 的 机 器 学 习 领 域 的 
博士 和 硕士 毕业 生 ， 并 成 为 推动 多 伦 多 市 ， 安 大 略 省 乃至 整个 加 拿 大 经 
济 发 展 的 AI 超级 集群 的 引擎 。 但 加 拿 大 将 面临 来 自 中 国 的 激烈 竞争 ， 中 
国正 在 培训 数 千 名 机 器 学 习 领 域 的 工程 师 ， 神 经 形态 计算 是 其 “大 脑 项 
目 ” 的 两 囊 之 一 。 受 2017 年 AlphaGo 击 败 柯 洁 事件 的 影响 一 类 似 1957 年 
苏联 制造 的 人 造 卫 星 对 美国 的 影响 ， 中 国 已 经 启动 了 一 项 新 的 价值 数 十 














亿美 元 的 人 工 智能 计划 ， 包 括 雄 心 勃勃 的 项 目 、 初 创 企业 和 学 术 研 究 ， 
目的 是 到 2030 年 在 世界 范围 内 占据 重要 地 位 。 攻 4 由 于 其 拥有 大 量 的 医 
疗 和 个 人 数据 ， 而 且 普 通 民众 对 隐私 的 关注 相 比 西方 民主 国家 要 少 得 

多 ， 中 国 可 以 超越 其 他 那些 将 私人 数据 保留 在 私有 孤岛 中 的 国家 。 中 国 
还 将 农业 和 制造 业 作为 数据 收集 的 对 象 。 谁 拥有 最 多 的 数据 ， 谁 就 是 赢 
家 ， 中 国 在 数据 上 的 资本 实力 相当 雄厚 。 


中 国 也 希望 “将 人 工 智 能 集成 到 导弹 中 ， 甚 至 预测 犯罪 行为 "。[ 和 9] 
而 与 此 同时 ， 美 国 的 政治 领导 人 正 计划 削减 科学 和 技术 资金 。 在 20 世 纪 
60 年 代 ， 美 国 在 太空 竞赛 中 投入 了 1000 亿 美元 (该 数字 针对 通货 膨胀 进 
行 了 调整 》，[49j 创 造 了 卫星 产业 ， 使 美国 在 微 电 子 和 材料 领域 处 于 领 
先 地 位 ， 并 在 科学 和 技术 的 国家 实力 上 做 出 了 政治 宣言 。 当 时 的 投资 至 
今 仍 在 发 挥 功效 。 微 电子 和 先进 材料 是 美国 仍然 具有 竞争 力 的 少数 几 个 
行业 之 一 。 中 国 在 AI 竞 争 方面 的 大 量 投 资 ， 可 能 会 让 它 在 21 世 纪 的 几 个 
关键 行业 中 处 于 领先 地 位 。 这 一 形势 对 我 们 来 说 是 一 种 警醒 。 

人 工 智 能 正在 加 速 “ 无 形 的 ”信息 经 济 。 经 济 产 出 的 衡量 标准 是 国内 
生产 总 值 (GDP) ， 即 所 有 商品 和 服务 的 总 价值 。 这 项 指标 是 为 工业 经 
济 设计 的 ， 其 主要 产品 和 服务 是 有 形 的 ， 例 如 食品 、 汽 车 和 医疗 保健 。 
但 是 ， 信 息 公 司 中 越 来 越 多 的 价值 并 不 是 以 这 些 实体 产品 进行 衡量 的 。 
例如 ， 微 软 拥有 的 建筑 和 设备 价值 为 10 亿 美元 ， 仅 占 其 市 场 价 值 的 
1%。 上 区 其 余 价 值 则 是 基于 软件 和 微软 程序 员 的 专业 知识 。 你 愿意 为 在 
智能 手机 上 下 载 的 信息 出 个 什么 价钱 ? 我 们 需要 一 种 考虑 到 各 种 形式 信 
县 价值 的 新 指标 ， 即 国内 无 形 资产 总 值 (Gross Domestic Intangibles, {ij 
称 GDI) ， 以 强化 GDP 来 衡量 生产 率 。L| 


目前 人 工 智 能 的 应 用 还 是 基于 30 年 前 完成 的 基础 研究 。30 年 后 的 应 
用 将 取决 于 当前 正在 进行 的 基础 研究 ， 但 最 优秀 和 最 聪明 的 研究 人 员 正 
在 为 工业 界 工 作 ， 并 专注 于 近期 的 产品 和 服务 。 平 衡 这 一 人 才 流 动 趋势 
的 是 ， 最 聪明 最 优质 的 学 生 现在 都 进入 了 机 器 学 习 领 域 。 而 在 上 一 代 人 
中 ， 类 似 的 人 才 会 进入 投资 银行 业 。 


























在 思考 人 工 智 能 的 未 来 时 ， 我 们 需要 保持 目光 长 远 ， 因 为 我 们 远 没 
有 其 备 达到 人 类 智能 水 平 所 需 的 计算 能 力 。 现 在 ， 深 度 学 习 网 络 拥有 数 
百 万 个 单元 和 数 十 亿 个 权重 。 这 比 人 类 大 脑 皮 层 中 的 神经 元 和 突 触 的 数 
量 还 要 少 1 万 倍 一 一 人 类 1 立方 野 米 的 皮层 组 织 束 包含 了 10 亿 个 突 触 。 如 
果 世 界 上 的 所 有 传 感 占 都 连接 到 互联 网 ， 并 通过 深度 学 习 网 络 相 互 连 
接 ， 那 么 有 一 天 ， 互 联网 可 能 会 醒 来 并 主动 说 出 : 


“Hello，world!”( 你 好 ， 世 界 ! » 149] 
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2015 年 2 月 2 日 

亲爱 的 教授 们 ， 我 参加 了 期 末 考 试 ， 考 得 很 好 。 我 在 读 五 年 级 。 我 妈妈 正在 浏览 Cour sera 
上 的 课程 ， 我 恳求 她 让 我 加入。 她 为 我 选择 了 这 门 课程 ， 我 对 此 很 感激 。 我 从 来 不 知道 教授 们 
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一 个 很 好 的 学 习 体 验 。 通 过 使 用 呼吸 法 ， 我 学 会 了 克服 进入 考场 时 的 胃 部 不 适 。 真 的 很 管用 ! 

现在 我 已 经 学 会 了 将 考试 看 作 了 解 我 学 到 并 记 住 了 多 少 东 西 的 工具 。 我 喜欢 番茄 工作 法 。 
我 的 妈妈 在 整个 过 程 中 都 在 扮演 反面 角色 。 她 的 大 脑 里 塞 满 了 视频 讲座 (她 只 顾 着 狂热 地 看 视 
频 ) ， 没 有 进行 适度 的 休息 ， 鞭 至 在 我 参加 期 末 考 试 的 前 一 天 晚上 都 没有 了 睡觉。 虽然 她 比 我 聪 
明 ， 但 她 做 得 不 好 。 我 很 惊讶 ， 简 单 的 技巧 就 能 帮助 我 得 到 更 高 的 分 数 ， 而 且 没有 任何 考试 的 
压力 。 





非常 感谢 ， 教 授 们 。 我 希望 你 们 能 推出 本 课程 的 第 二 部 分 。 
周一 快乐 。 
苏 珊 
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算法 驱动 


2016 年 6 月 ， 在 新 加 坡 南洋 理工 大 学 举办 的 21 世 纪 科 学 挑战 大 会 
上 ， 我 参与 了 为 期 一 周 的 讨论 。 讨 论 的 话题 范围 很 广 ， 从 宇宙 论 、 进 化 
论 到 科学 政策 。 山 w. 布 赖 恩 - 阿 瑟 CW. Brian Arthur) 是 一 个 对 技术 很 
感 兴趣 的 经 济 学 家 ， 园 他 指出 ， 在 过 去 ， 技 术 是 由 物理 定律 驱动 的 
20 世 纪 ， 我 们 试图 用 微分 方程 和 连续 变量 的 数学 原理 去 理解 物理 世界 ， 
这 些 变量 在 时 间 和 空间 上 平滑 地 变化 。 相 比 之 下 ， 今 天 的 技术 是 由 算法 
驱动 的 ; 在 21 世 纪 ， 我 们 试图 通过 离散 数学 和 算法 来 理解 计算 机 科学 和 
生物 学 复杂 的 本 质 。 阿 瑟 是 新 墨西哥 州 圣 塔 菲 研究 所 (the Santa Fe 
Institute) 的 教员 ， 该 机 构 是 20 世 纪 涌 现 出 的 许多 研究 复杂 系统 的 中 心 
z—, BI 


算法 无 处 不 在 。 我 们 每 次 使 用 谷歌 搜索 时 都 使 用 了 算法 。 邮 每 次 
在 Facebook 上 阅读 的 新 闻 推 送 也 都 经过 了 算法 的 自动 箭 选 ， 这 些 新 的 推 
送 参考 了 我 们 的 阅读 历史 记录 ， 会 影响 我 们 情绪 的 反应 。 哆 j 随 着 经 过 
深度 学 习 训 练 的 语音 识别 和 上 自然 语言 能 力 被 岁入 我 们 的 手机 中 ， 算 法 下 
在 以 越 来 越 快 的 速度 侵入 我 们 的 生活 。 

算法 是 在 执行 计算 或 解决 问题 时 ， 遵 循 一 组 包含 离散 步骤 或 规则 的 
Whe. “SHA” Calgorithm) 这 个 词 来 源 于 拉丁 文 “algorismus”， 以 9 世纪 
的 波斯 数学 家 al-Khwarizmi 的 名 字 命 名 ， 在 17 世 纪 受 到 希腊 语 
中 “arithmos”( 意 为 “数字 ”) 这 个 词 的 影响 ， 最 终 由 “algorism” 转 变 
为 “algorithm”。 算 法 虽然 有 着 古老 的 起 源 ， 但 其 地 位 直到 最 近 才 通过 数 
字 计 算 机 提升 到 了 科学 和 工程 领域 的 前 沿 。 
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20 世 纪 80 年 代 ， 解 决 复杂 度 问 题 的 新 方法 开始 萌芽 ， 其 目标 是 寻找 
新 的 途径 来 理解 在 生物 体 中 发 现 的 系统 ， 这 些 系统 比 物理 和 化 学 系统 还 
要 复杂 。 与 遵循 艾 萨 克 : 牛 顿 运动 定律 的 火箭 运动 的 简单 性 不 同 ， 并 没 
有 一 种 简易 的 方式 来 描述 树木 如 何 生 长 。 于 是 ， 计 算 机 算法 被 一 大 群 传 
奇 的 先驱 用 来 探索 这 些 古 老 的 生命 体 问题 。 

斯 图 尔 特 : 考 夫 曼 (Stuart Kauffman) 是 一 名 医生 ， 对 基因 网 络 很 感 
兴趣 。 基 因 网 络 中 被 称 为 “转录 因子 ”的 蛋白 质 能 定位 基因 ， 并 影响 它们 
是 否 被 激活 。[ 辕 他 的 模型 是 自 组 织 的， 基于 二 元 单元 网 络 ， 这 个 网 络 
和 神经 网 络 在 某 些 方面 很 相似 ， 但 速度 要 慢 得 多 。 克 里 斯 托 弗 . 兰 顿 
(Christopher Langton) 在 20 世 纪 80 年 代 后 期 创造 了 “人 造 生 命 ” 这 个 术 
语 ， 欧 由 此 引发 了 一 系列 的 尝试 ， 旨 在 理解 活 细胞 的 复杂 性 和 复杂 行 
为 形成 发 展 的 原理 。 尽 管 我 们 在 细胞 生物 学 和 分 子 遗传 学 方面 所 取得 的 
进展 ， 已 经 能 够 揭示 细胞 内 分 子 机 制 高 度 演化 的 复杂 性 ， 但 生命 的 奥秘 
对 我 们 来 说 仍然 是 个 不 解 之 谜 。 

算法 为 创造 出 比 现 有 世界 更 为 复杂 的 世界 提供 了 新 的 机 会 。 事 实 
上 ，20 世 纪 发 现 的 算法 确实 让 我 们 重新 思考 了 复杂 性 的 本 质 。20 世 纪 80 
年 代 的 神经 网 络 革命 ， 就 是 由 类 似 的 理解 大 脑 复杂 性 的 尝试 所 驱动 的 。 
虽然 我 们 的 神经 网 络 模型 比 大 脑 的 神经 回路 简单 得 多 ， 但 我 们 开发 的 学 
习 算 法 使 得 探索 一 般 原理 成 为 可 能 ， 例 如 信息 在 大 量 神经 元 中 的 分 布 原 
理 。 不 过 ， 网 络 功能 的 复杂 性 是 如 何 由 相对 简单 的 学 习 规则 产生 的 呢 ? 
是 否 存在 一 种 更 简单 的 系统 ， 既 体现 了 复杂 性 ， 又 更 易于 分 析 呢 ? 




















理解 、 分 析 复 森 系 统 





另 一 个 以 科学 的 严肃 态度 对 符 复 杂 性 的 传奇 人 物 是 斯蒂芬 ` 沃 尔 夫 


勒 姆 〈 见 图 13-1) 。 他 年 轻 时 是 个 神童 ，20 岁 就 从 加 州 理 工学 院 获 得 了 
物理 学 博士 学 位 ， 创 造 了 该 学 位 最 年 轻 毕 业 生 的 纪录 ， 并 于 1986 年 在 伊 
利 诡 伊 大 学 成 立 了 复杂 系统 研究 中 心 。 沃 尔 夫 勒 姆 认为 神经 网 络 过 于 复 
杂 ， 于 是 决定 转变 研究 方向 ， 开 始 探索 细胞 上 自动 机 。 


细胞 自动 机 通常 只 有 少数 几 个 随时 间 变 化 的 离散 值 ， 这 取决 于 其 他 
细胞 的 状态 。 最 简单 的 一 种 细胞 自动 机 ， 是 一 组 一 维 的 细胞 阵列 ， 每 个 
细胞 的 值 为 0 或 1〈 见 方 框 13.1) 。“ 生 命 的 游戏 ”(Game of Life) 也 许 是 
最 著名 的 细胞 自动 机 了 ， 它 是 由 普林斯顿 大 学 的 数学 教授 约翰 : 康 威 
(John Conway) 在 1968 年 发 明 的 ， 并 由 马丁 .加 德 纳 (Martin Gardner) 
通过 他 在 杂志 《科学 美国 人 》 (Scientific American) 的 “数学 游戏 ”专栏 
中 推广 开 来 〈 见 图 13-2) 。 整 个 空间 是 一 个 二 维 的 细胞 阵列 ， 细 胞 只 
有 “ 开 ” 或 “ 关 ” 的 状态 ， 对 规则 的 更 新 仅 取 决 于 4 个 最 近 的 相 邻 细胞。 在 
每 个 时 间 步 又 中 ， 所 有 细胞 的 状态 都 会 更 新 。 阵 列 中 会 生成 复杂 的 模 
式 ， 其 中 一 些 模式 还 有 自己 的 名 字 ， 例 如 “滑翔 机 ”， 它 会 横 跨 阵列 并 与 
其 他 模式 发 生 碰 撞 。 初 始 条 件 对 于 找到 显示 复杂 模式 的 配置 至 关 重 要 。 
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图 13-1 斯 蒂 芬 。 沃 尔 夫 勒 姆 在 他 位 于 马萨诸塞 州 康 科 德 的 家 中 ， 站 在 由 算法 生成 的 地 板 上 。 沃 


尔 夫 勒 姆 是 复杂 性 理论 的 先驱 ， 他 曾经 提出 ， 即 使 是 简单 的 程序 也 会 生成 现实 级 别 的 复杂 性 。 
图 片 来 源 : 斯 蒂 芬 。 沃 尔 夫 勒 姆 。 





生成 复杂 系统 的 规则 有 多 普遍 呢 ? 沃 尔 夫 勒 姆 想 要 了 解 可 能 导致 复 
杂 行 为 的 最 简单 的 细胞 自动 机 规则 ， 于 是 他 开始 从 所 有 规则 中 寻找 。 规 
则 0~29 产 生 的 模式 总 是 会 回归 枯燥 的 行为 ， 所 有 的 细胞 都 会 以 重复 模式 
或 圣 套 分 形 模式 结束 。 但 是 ， 规 则 30 产 生 了 展开 模式 ， 规 则 110 不 断 变 
化 并 演变 出 了 复杂 模式 (见方 框 13.1) 。[ 蚀 最终 证 明 ， 规 则 110 能 够 实 
现 通 用 计算 ; 也 就 是 说 ， 所 有 可 能 的 细胞 自动 机 中 ， 最 简单 的 一 些 已 经 
具备 了 可 以 计算 任何 可 计算 函数 的 图 灵机 的 能 力 ， 所 以 它 在 原则 上 与 任 
何 计算 机 一 样 强大 。 
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[13-2 生命 的 游戏 。 一 个 Gosper 滑 翔 机 枪 〈 图 片 顶 部 ) 的 快照 ， 它 发 出 一 系列 按 对 角 线 飞行 的 
滑翔 机 图 标 ， 从 “ 母 船 ” (顶部 ) 飞 往 右 下 角 。 图 片 来 自 维基 百科 : Gun (cellular 
automaton) ， 有 一 个 滑翔 机 枪 运动 的 GIF 动画 。 


该 发 现 的 一 个 意义 在 于 ， 我 们 在 生命 体 中 发 现 的 显著 复杂 性 ， 可 以 
通过 对 分 子 间 化 学 相互 作用 的 最 简 空 间 进行 采样 ， 从 而 实现 演化 。 而 演 
化 过 程 中 出 现 的 复杂 的 分 子 组 合 ， 应 该 是 能 够 预料 到 的 ， 不 应 该 被 当 作 
征 什么 奇迹 。 但 细胞 上 自动 机 可 能 不 是 早期 生命 的 优秀 模型 ， 究 竟 哪 些 简 
单 的 化 学 系统 能 够 产生 复杂 的 分 子 结构 ， 仍 然 是 一 个 悬而未决 的 问 
题 。 呈 也 许 只 有 特殊 的 生物 化 学 系统 才 有 这 种 特性 ， 这 有 助 于 减少 可 
能 产生 生命 的 潜在 相互 作用 种 类 的 数量 。 

生命 的 一 个 重要 特性 ， 是 细胞 的 自我 复制 能 力 。 匈 牙 利益 美国 数学 
家 约 输 : 冯 : 诺 依 曼 ， 曾 经 于 20 世 纪 40 年 代 在 普林斯顿 高 级 研究 所 使 用 细 
胞 自动 机 探索 过 这 种 能 力 。 冯 : 话 依 曼 的 工作 对 数学 的 许多 领域 都 产生 
了 重大 影响 ， 特 别 是 他 关于 博弈 论 的 开创 性 工作 在 第 1 章 中 提 到 
过 ) 。 在 寻找 可 以 完全 自我 复制 的 最 简单 的 细胞 自动 机 过 程 中 ， 冯 : 话 
依 曼 发 现 了 一 个 复杂 的 细胞 自动 机 ， 具 有 29 个 内 部 状态 和 一 个 大 型 的 记 
忆 体 ， 可 以 实现 自我 复制 。 呈 QL 该 发 现 具有 重大 的 生物 学 意义 ， 因 为 能 
够 日 我 复制 的 细胞 中 ， 也 有 许多 内 部 状态 和 记忆 以 DNA 的 形式 存在 。 从 
那 以 后 ， 更 简单 的 、 能 够 目 我 复制 的 细胞 上 自动 机 陆续 被 发 现 。 
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1943 年 ， 添 伦 . 麦 卡 洛克 (Warren McCulloch) MIKIR RB ÝR 
(Walter Pitts) uEHH f, FA ZS {Dee XI SR BJ fa) 22 — 3H n] BL [EL P 7 RJ BE A 
数字 计算 机 是 可 行 的 ， 只 要 将 感知 器 按照 计算 机 的 基本 逻辑 门 那 样 连接 
起 来 就 可 以 了 。 了 我 们 现在 知道 ， 大 脑 有 模拟 和 数字 的 混合 特性 ， 它 
们 的 神经 回路 通常 不 计算 逻辑 函数 。 但 是 麦 卡 洛克 和 皮 芯 于 1943 年 发 表 
的 论文 在 当时 受到 了 很 多 关注 ， 特 别 是 启发 了 冯 : 诺 依 曼 对 计算 机 的 思 
考 。 他 创建 了 第 一 批 有 存储 程序 的 数字 计算 机 ， 这 对 于 当时 的 数学 家 来 
说 是 一 个 很 不 寻常 的 项 目 ， 尽 管 当 冯 : 诺 依 曼 于 1957 年 去 世 时 ， 高 级 研 
究 所 并 没有 继续 他 的 研究 ， 还 销毁 了 他 的 计算 机 。 呈 4 

冯 : 诺 依 曼 对 大 脑 也 非常 感 兴 趣 。1956 年 ， 作 为 耶鲁 大 学 举办 的 西 
FS (Silliman) 讲座 嘉宾 ，L 引 他 在 讲座 中 思考 了 大 脑 如 何 用 这 种 不 
可 靠 的 组 件 进行 可 靠 操 作 的 问题 。 当 数字 计算 机 中 的 晶体 管 出 现 错误 
时 ， 整 个 计算 机 可 能 就 会 月 溃 ， 但 是 当 大 脑 中 的 某 个 神经 元 失灵 时 ， 大 
脑 的 其 他 部 分 却 会 适应 这 种 失灵 ， 并 照常 工作 。 汉 : 诺 依 曼 认 为 ， 宛 余 
(redundancy) 可 能 是 大 脑 能 够 稳定 运转 的 原因 ， 因 为 每 一 个 操作 都 有 
许多 神经 元 参与 。 宛 余 在 传统 上 是 基于 备份 的 ， 以 防 主 系统 出 现 故 障 。 
但 我 们 现在 知道 ， 大 脑 的 元 余 是 基于 多 样 性 ， 而 不 是 重复 。 冯 : 诺 依 曼 
对 逻辑 深度 也 表示 了 担忧 : 在 累计 误差 破坏 结果 之 前 ， 大 脑 可 以 完成 多 
FEHR HER? 与 可 以 完美 地 执行 每 个 逻辑 步骤 的 计算 机 不 同 ， 大 脑 具 有 
许多 噪声 源 。 一 个 大 脑 可 能 达 不 到 完美 的 程度 ， 但 是 因为 它 有 许多 神经 
元 并 行 工作 ， 所 以 每 一 步 能 够 完成 的 计算 都 比 一 台 计 算 机 进行 一 次 计算 
所 能 完成 的 要 多 得 多 ， 因 而 逻辑 深度 也 要 浅 一 些 。 
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想象 一 下 充满 了 所 有 可 能 算法 的 空间 。 这 个 空间 中 的 每 一 点 都 是 一 
个 算法 ， 可 以 做 某 件 事 ， 而 且 其 中 一 些 算 法 是 非常 有 用 且 高 效 的 。 过 
去 ， 这 些 算 法 是 由 数学 家 和 计算 机 科学 家 们 手工 创造 的 ， 就 像 行 会 里 的 
工匠 那样 。 斯 带 芬 - 沃 尔 夫 勒 姆 通过 穷 举 搜 索 (exhaustive search) 对 搜 
寻 细 胞 自动 机 算法 的 过 程 进行 了 自动化， 从 最 简单 的 自动 机 开始 ， 其 中 
一 些 产生 了 高 度 复杂 的 模式 。 沃 尔 夫 勒 姆 定律 CWolfram’slaw) 是 对 这 
种 见解 的 一 个 总 结 。 访 定律 指出 ， 你 不 必 在 算法 空间 中 搜索 很 长 一 段 路 
径 ， 就 可 以 找到 一 种 能 解决 一 类 有 趣 问 题 的 算法 。 这 就 像 使 用 机 器 人 程 
序 在 互联 网 上 玩 类 似 《 星 际 争霸 》 的 游戏 一 样 ， 尝 试 所 有 可 能 的 策略 。 
根据 沃 尔 夫 勒 姆 定律 ， 算 法 空间 中 应 该 有 大 量 算法 可 以 启 得 游戏 。 

沃 尔 夫 勒 姆 专注 于 细胞 自动 机 的 空间 ， 这 是 所 有 可 能 算法 空间 中 一 
个 小 的 子 空间 。 但 是 ， 如 果 细 胞 自动 机 是 非典 型 算法 ， 比 其 他 类 算法 更 
上 共有 普遍 性 呢 ?” 我 们 现在 已 经 在 神经 网 络 空 间 中 确认 了 沃 尔 夫 勒 姆 定 
律 。 每 个 深度 学 习 网 络 都 是 通过 学 习 算 法 找到 的 ， 该 算法 是 一 种 发 现 新 
算法 的 元 算法 。 对 于 大 型 网 络 和 大 量 数据 ， 从 不 同 的 起 始 状 态 学习 可 以 
产生 如 星系 般 庞 大 的 网 络 数量 ， 它 们 在 解决 问题 上 都 能 达到 相同 效果 。 
这 就 产生 了 一 个 问题 ， 即 是 个 存在 一 种 比 梯度 下 降 更 快 的 方法 能 够 找到 
算法 空间 的 区 域 。 梯 度 下 降 这 种 方法 速度 慢 ， 还 需要 使 用 大 量 的 数据 。 
有 一 个 暗示 揭示 了 这 种 可 能 性 ， 即 每 个 生物 种 类 ， 都 是 由 生命 算法 空间 
中 的 一 个 点 附近 的 变 体 DNA 序 列 创建 的 个 体 云 。 自 然 界 通过 自然 选择 设 
法 从 一 个 “个 体 云 ” 跳 跃 到 男 一 个 云 ， 这 种 跳跃 式 过 程 被 称 为 “间断 性 平 
衡 ”(punctuated equilibria) 口 4 和 ， 同 时 每 个 物种 也 经 历 着 随机 突变 的 局 
部 搜索 。 遗 传 算 法 被 设计 用 来 进行 这 样 的 跳跃 ， 大 致 是 基于 自然 界 如 何 
演化 出 新 的 有 机 体 口 2?] 。 我 们 需要 用 数学 来 描述 这 些 算法 云 。 可 谁 知道 
算法 的 空间 是 什么 样子 呢 ? 还 有 很 多 我 们 尚未 发 现 的 算法 “星系 ”， 但 我 
们 可 以 通过 自动 探索 的 方式 来 找到 这 些 星系 终极 边境 。 


我 实验 室 的 博士 后 研究 员 克 劳 斯 :- 施 带 费 尔 (Klaus Stiefel) 跟 进 了 
这 一 过 程 中 的 一 个 简单 例子 。 他 在 2007 年 使 用 了 一 种 算法 ， 在 计算 机 中 



































生成 了 具有 复杂 的 树 突 树 (dendritic trees〉 的 模型 神经 元 。 呈 蚀 树 突 就 
像 天 线 一 样 从 其 他 神经 元 收集 输入 。 可 能 的 树 突 树 的 空间 是 巨大 的 ， 而 
施 蒂 费 尔 的 目标 是 指定 所 需 的 功能 ， 并 在 树 突 树 的 空间 中 搜索 能 够 计算 
出 该 功能 的 模型 神经 元 。 一 个 有 效 的 功能 是 决定 输入 放电 尖峰 的 到 达 顺 
序 : 当 一 个 特定 的 输入 在 另 一 个 输入 之 前 到 达 时 ， 神 经 元 应 该 输出 一 个 
放电 尖峰 ， 但 是 如 果 该 输入 随后 到 达 ， 神 经 元 应 该 保持 沉默 。 这 种 模型 
神经 元 是 通过 使 用 遗传 算法 搜索 所 有 可 能 的 树 突 树 发 现 的 ， 且 该 解决 方 
案 看 起 来 就 像 皮层 锥 体 神经 元 ， 一 个 突 触 位 于 底部 的 薄 树 突 ( 基 底 树 
突 ) ， 男 一 个 突 触 位 于 神经 元 顶部 的 厚 树 突 ( 顶 树 突 ， 见 图 14-6) 。 这 
也 许 解 释 了 为 什么 锥 体 细胞 有 顶端 和 基底 的 树 突 。 如 果 没 有 对 所 有 可 能 
突 触 的 空间 进行 深入 搜索 ， 我 们 可 能 就 无 法 将 这 种 结构 和 上 述 功 能 联系 
起 来 。 通 过 从 其 他 功能 开始 重复 此 搜索 ， 可 以 自动 编译 以 树 突 形状 列 出 
相应 功能 的 目录 ， 并 且 当 发 现 新 的 神经 元 时 ， 可 以 在 目录 中 通过 其 树 突 
形状 查找 其 潜在 的 功能 。 

斯 蒂 芬 : 沃 尔 夫 勒 姆 离开 学 术 界 后 创立 了 沃 尔 夫 勒 姆 研究 所 ， 后 者 
开发 了 Mathematica 程 序 ， 该 程序 支持 大 量 的 数学 结构 ， 并 被 广泛 应 用 
于 实际 。Mathematica 是 用 沃 尔 夫 勒 姆 语言 编写 的 ， 这 是 一 种 通用 的 融 
合 多 种 范式 的 编程 语言 。 该 语言 也 为 沃 尔 夫 勒 姆 阿尔 法 (Wolfram 
Alpha) 提供 支持 ， 它 是 第 一 个 实用 的 、 基 于 符号 方法 的 关于 大 千 世 界 
的 问答 系统 。 上 LJ 学 术 领 域 的 货币 ， 是 发 表 的 文章 。 如 果 你 是 一 个 自立 
的 绅士 派 科 学 家 ， 你 就 有 能 力 绕 过 简短 的 文章 ， 出 版 有 足够 空间 来 彻底 
探索 新 领域 的 书籍 。 这 是 多 个 世纪 以 来 的 常态 ， 只 有 富 人 或 富 人 赞助 的 
学 者 ， 才 有 条 件 成 为 科学 家 。 

沃 尔 夫 勒 姆 在 2002 年 写 了 《一 种 新 的 科学 》 (A New Kind of 
Science) 一 书 。 了 8] 该 书 重 5.6 磅 ， 长 达 1280 页 ， 其 中 有 348 页 记录 了 相 
当 于 100 份 新 科学 论文 的 附录 。 这 本 书 被 媒体 大 肆 宣 传 ， 但 引发 了 复杂 
系统 界 讲 贬 不 一 的 评论 ， 其 中 一 些 人 认为 其 中 并 没有 完整 地 引用 他 们 的 
工作 。 这 种 反对 意见 并 没有 抓 住 此 书 的 要 点 ， 即 把 以 前 的 工作 置 于 新 的 





























语 境 下 。 卡 尔 - 林 奈 (Carolus Linnaeus) 开发 了 一 种 现代 化 的 植物 和 动 
物 分 类 法 ， 即 “二 名 法 ”(Binomial Nomenclature) ， 如 大 肠 杆 菌 
(Escherichia coli) 。 该 命名 法 是 达尔 文 进 化 论 的 重要 先导 ， 为 早期 的 
分 类 学 做 了 铺垫 。 沃 尔 夫 勒 姆 开辟 的 这 一 研究 方 癌 在 新 一 代 研 究 人 员 中 
LAA Shes. 


在 20 世 纪 80 年 代 ， 沃 尔 夫 勒 姆 对 神经 网 络 可 能 对 现实 世界 产生 的 影 
响 表 示 怀 疑 ， 而 且 事实 上 ， 这 些 神经 网 络 在 之 后 30 年 的 确 没有 产生 太 大 
的 影响 。 然 而 ， 过 去 5 年 的 进步 已 经 改变 了 这 一 点 : 沃 尔 夫 勒 姆 和 其 他 
许多 研究 人 员 承 认 他 们 低估 了 网 络 的 成 就 。 呈 站 但 是 谁 能 预测 神经 网 络 
的 性 能 会 扩展 到 什么 程度 呢 ? 支持 Mathematica 的 沃 尔 夫 勒 姆 语言 现在 
也 支持 深度 学 习 应 用 ， 其 中 一 个 应 用 ， 是 最 早 对 图 像 中 的 对 象 提供 在 线 
识别 技术 的 应 用 程序 。 上 0 


是 斯 带 芬 把 我 介绍 给 了 比 阿 特 丽 斯 :哥伦布 。1987 年 我 去 对 从 芒 
时 ， 比 阿 特 丽 斯 正在 加 州 大 学 圣迭戈 分 校 攻 读 博 士 学 位 。 他 打 电 话说 ， 
他 的 朋友 比 阿 特 丽 斯 会 参加 我 的 PDP 讲 座 (之 后 又 分 别 给 我 们 打 电 话 询 
问 事情 的 进展 ) 。 几 年 后 ， 我 搬 到 入 迭 戈 ， 后 来 义 和 比 阿 特 丽 斯 订 了 
婚 。1990 年 我 们 在 加 州 理工 学 院 举 行 完 婚礼 后 ， 去 了 贝克 曼 礼 党 参加 了 
一 个 婚礼 研讨 会 ， 比 阿 特 丽 斯 映 着 婚纱 ， 发 表 了 一 个 演讲 一 一 《婚姻 : 
理论 与 实践 》 (Marriage: Theory and Practice) 。 斯 带 芬 自 信 满 满 ， 不 
无 骄傲 地 介绍 了 他 当时 是 如 何 介绍 我 们 认识 的 。 不 过 比 阿 特 丽 斯 提出 ， 
如 采 他 想 邀 功 ， 也 必须 承担 相应 的 责任 ， 对 此 ， 他 讶 慎 地 表示 了 反对 。 
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我 们 正在 目睹 电脑 必 片 行业 一 个 新 格局 的 诞生 。 该 领域 的 竞争 主要 
在 于 如 何 设 计 和 制造 新 一 代 的 心 片 ， 能 够 运行 学 习 算 法 一 一 人 不定 是 深度 
学 习 、 强 化 学 习 还 是 其 他 的 学 习 算 法 一 一 比 在 通用 计算 机 上 的 模拟 学 习 
算法 快 上 几 千 倍 ， 能 耗 也 更 低 。 新 的 超大 规模 集成 电路 忆 片 采取 并 行 处 
理 结构 ， 融 有 内 存 ， 能 够 缓解 在 过 去 50 年 里 主导 计算 的 顺序 训 : 话 依 曼 
构架 中 内 存 和 中 央 处 理 器 之 间 的 瓶颈 。 在 硬件 层面 ， 我 们 还 在 探索 阶 
段 。 每 种 具有 特殊 用 途 的 超大 规模 集成 电路 忆 片 都 有 不 同 的 优点 和 局 限 
性 。 运 行人 工 乔 能 应 用 的 大 型 网 络 需要 巨大 的 运算 能 力 ， 因 此 ， 构 建 高 
效 的 硬件 有 痢 巨 大 的 赢利 空间 。 


主要 的 电脑 作 片 公司 和 初创 公司 都 在 开发 深度 学 习 必 片上 投入 了 大 
量 资金 。 比 如 ，2016 年 ， 英 特 尔 用 4 亿美 元 并 购 了 Nervana， 这 是 一 家 来 
自 圣 友 戈 的 初创 公司 ， 主 营 设 计 深 度 学 习 的 专用 超大 规模 集成 电路 心 
片 。Nervana 前 CEO 纳 维 恩 : 饶 (Naveen Rao) 现在 负责 领导 英特尔 新 设 
芯 的 AI 产品 部 ， 直 接 报 告 给 英特尔 的 CEO。2017 年 ， 英 特 尔 用 153 亿 美 
元 并 购 了 Mobileye， 该 公司 专注 于 生产 上 自动 要 驶 汽车 的 传感器 以 及 计算 
机 视觉 系统 。 英 伟 达 (Nvidia) 开发 了 能 够 优化 图 形 应 用 程序 和 游戏 的 
专用 数字 必 片 ， 称 为 图 形 处 理 器 (graphics — processingunits, GPUs) , 
目前 正在 销售 更 多 为 深度 学 习 和 计算 设计 的 专用 必 族 。 而 谷歌 则 设计 生 
产 了 一 种 更 为 高 效 的 专用 心 上 户 一 一 张 量 处 理 单 元 Ctensor processing 
unit，TPU) ， 以 助力 为 其 互联 网 服务 的 深度 学 习 。 

不 过 研发 专用 软件 和 发 展 深度 学 习 应 用 同样 重要 。 谷 歌 开 源 了 它 的 
深度 学 习 项 目 TensorFlow， 尽 管 该 做 法 并 没有 看 起 来 那么 无 私 。 比 如 让 
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控制 权 。 现 在 除了 TensorFlow， 还 有 其 他 一 些 开 源 选 择 ， 比 如 微软 的 
CNTK， 亚 马 进 和 其 他 大 型 互联 网 公司 文 持 的 MVNet， 以 及 其 他 深度 学 
习 程 序 ， 比 如 Caffe、Theano 和 PyTorch 。 


2011 年 ， 我 在 挪威 的 特 罗 姆 瑟 组 织 举 办 了 由 Kavli 基 金 会 赞助 的 “ 绿 
色 环 境 中 高 性 能 计算 的 发 展 ”(Growing High Performance Computing in a 
Green Environment) 研讨 会 。 出 我们 估计 ， 使 用 当前 的 微 处 理 器 技 
术 ， 百 亿 亿 次 级 〈exascale) 计算 [ 比 千 万 亿 次 级 Cpetascale) 计算 强大 
1000 倍 ] 需要 50 兆 瓦 的 功率 ， 比 运行 纽约 市 地 铁 所 需 的 功率 还 多 。 
此 ， 下 一 代 超 级 计算 机 可 能 不 得 不 使 用 像 英 国 路 国 半 导体 公司 Arm 
Holdings (ARM) 为 手机 开发 和 优化 的 那 种 低 功 耗 芯片 。 很 快 ， 在 大 多 
数 计 算 密 集 型 应 用 中 使 用 通用 数字 计算 机 将 不 再 可 行 ， 专 用 心太 将 占 主 
导 地 位 ， 因 为 它们 已 经 被 嵌入 手机 中 了 。 

人 类 大 脑 中 有 大 约 1000 亿 个 神经 元 ， 每 个 神经 元 都 与 其 他 数 千 个 神 
经 元 相连 接 ， 总 计 达 1000 万 亿 个 10) 突 触 连接 。 大 脑 运 转 所 需 的 功 
耗 大 约 是 20 瓦 ， 占 整个 身体 运转 所 需 功 率 的 20%， 尽 管 大 脑 仅 占 身体 质 
量 的 3%。 相 比 之 下 ， 一 人 台 远 不 如 大 脑 强大 的 千 万 亿 次 级 超级 计算 机 ， 
功 耗 却 为 5 兆 瓦 ， 是 大 脑 功 耗 的 25 万 倍 。 大 目 然 是 怎么 创造 出 这 一 高 效 
奇迹 的 呢 ? 首先 ， 神 经 元 接收 和 发 送信 号 的 部 分 被 微缩 至 分 子 水 平 。 另 
外 ， 神 经 元 是 在 三 维 空间 上 连接 的 〈 微 心 片 表面 的 品 体 管 仅 在 二 维 平 面 
上 相互 连接 ) ， 这 样 束 可 以 使 所 需 空间 最 小 化 。 由 于 大 自然 很 久 以 前 天 
进化 出 了 这 些 技术 ， 想 要 追赶 大 脑 的 能 力 ， 我 们 还 有 很 多 工作 要 做 。 

深度 学 习 是 高 上 度 计 算 密 集 型 的 ， 该 过 程 目前 在 中 央 服 务 嚣 上 完成 ， 
计算 结果 会 被 传送 到 手机 等 周边 设备 。 最 终 ， 周 边 设备 应 该 是 自主 运行 























的 ， 这 就 需要 完全 不 同 的 硬件 一 一 比 云 计 算 轻 得 多 ， 耗 电 也 更 少 。 幸 运 
的 是 ， 这 样 的 硬件 已 经 存在 了 ， 即 受 大 脑 局 发 设计 出 的 神经 形态 忆 片 
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1983 年 ， 我 在 匹兹堡 郊外 一 个 度假 村 里 举行 的 研讨 会 上 第 一 次 见 到 
了 卡 弗 : 米 德 (Carver Mead) 〈 见 图 14-1) 。 那 时 杰 弗 里 . 尘 顿 创建 了 一 
个 小 组 来 探索 神经 网 络 研 究 的 发 展 趋 势 。 米 德 因 其 在 计算 机 科学 领域 的 
重要 贡献 而 闻名 。 他 第 一 个 认识 到 ， 随 着 大 规模 集成 电路 心 片上 的 晶体 
管 变 得 越 来 越 小 ， 心 片 将 越 来 越 高 效 ， 计 算 能 力也 应 该 会 持续 增长 很 长 
一 段 时 间 。 他 还 创造 了 “摩尔 定律 ”这 个 术语 ， 根 据 戈 登 :摩尔 (Gordon 
Moore) 的 观察 ， 心 片上 的 晶体 管 数 量 每 18 个 月 会 翻 一 番 。1981 年 ， 卡 
弗 发 明了 奎 编译 嚣 ， 从 此 成 为 业界 传奇 。 侍 编译 器 是 一 种 自动 在 心 厂 上 
设计 系统 级 功能 模块 和 布线 的 程序 。 内 在 硅 编 译 器 诞生 之 前 ， 每 款 芯 
片 都 是 由 工程 师 基 于 经 验 和 直觉 手工 制作 出 来 的 。 从 本 质 上 讲 ， 米 德 的 
解决 方案 是 让 计算 机 自己 设计 芯片 。 这 是 我 们 迈 向 纳米 工程 的 起 点 。 








图 14-1 1976 年 的 卡 弗 。 米 德 。 正 是 在 那 段 时 期 ， 他 在 加 州 理工 学 院 创 造 了 第 一 个 硅 编 译 器 。 卡 
弗 是 一 位 有 远见 的 人 ， 他 的 洞察 力 和 引领 的 技术 进步 对 数字 和 模拟 计算 产生 了 重大 影响 。 桌 上 
的 电话 上 暗示 了 照片 的 拍摄 时 间 。 图 片 来 源 : 加 州 理工 学 院 。 


米 德 是 一 位 颇 有 远见 的 人 。 我 们 曾 一 起 在 匹兹堡 郊外 参加 一 个 研讨 


会 。 尺 管 大 家 挤 在 楼 上 一 个 小 房间 里 的 架子 边 上 讨论 ， 但 是 正在 进行 着 
的 是 一 场 天 于 超级 计算 机 的 会 议 。 当 时 Cray 和 Control Data 等 主流 超级 计 
算 机 公司 正在 设计 专用 硬件 ， 比 我 们 实验 室 的 计算 机 快 了 数 百 倍 ， 售 价 
避 达 1 亿美 元 。Cray 超 级 计算 机 速度 如 此 之 快 ， 不 得 不 用 握 利 昂 进行 液 
体 冷 却 。 米 德 告 诉 我 ， 超 级 计算 机 公司 还 不 知道 ， 通 用 微 处 理 器 将 会 占 
领 它 们 的 市 场 ， 这 些 公 司 很 快 就 会 销声匿迹 。 虽 然 比 超级 计算 机 中 的 专 
用 蕊 片 慢 得 多 ， 但 得 益 于 因 缩 小 基本 器 件 尺 寸 所 带 来 的 成 本 压缩 和 性 能 
改进 ， 个 人 计算 机 中 的 微 处 理 器 进化 得 比 超 级 计算 机 中 的 还 要 快 。 现 在 
手机 中 的 微 处 理 器 的 计算 能 力 是 20 世 纪 80 年 代 Cray XMP 超 级 计算 机 的 
10 倍 ， 现 在 的 高 性 能 超级 计算 机 拥有 数 十 万 个 微 处 理 器 核心 ， 每 秒 进行 
的 浮 点 运算 达到 了 和 于 万 亿 次 级 别 ， 比 已 经 消失 的 Cray 超 级 计算 机 快 100 
万 倍 。 考 虑 到 通货 脱 胀 ， 两 者 的 成 本 大 致 是 相同 的 。 


在 1983 年 的 那 次 研讨 会 上 ， 米 德 加 我 们 展示 了 一 个 硅 视网膜 ， 它 使 
用 了 与 超大 规模 集成 电路 必 片 相同 的 制造 技术 ， 但 使 用 了 模拟 而 非 数字 
电路 。 在 模拟 电路 中 ， 唱 体 管 上 的 电压 可 以 连续 变化 ， 而 数字 电路 中 的 
品 体 管 只 能 采用 “ 开 ? 或 “ 关 ?” 两 个 二 进 制 值 中 的 一 个 。 人 的 视网膜 上 有 一 
亿 个 光 感 受 器 ， 与 相机 将 信息 从 光子 桶 〈photon buckets) 传动 到 记忆 体 
的 方式 不 同 ， 视 网 膜 具 有 多 层 神 经 处 理 功能 ， 可 将 视觉 输入 转换 为 高 效 
的 神经 编码 。 视 网 膜 的 所 有 处 理 过 程 部 是 模拟 的 ， 直 到 其 编码 信号 到 达 
神经 节 细 胞 ， 神 经 市 细胞 将 这 些 信号 沿 着 100 万 个 轴 突 ， 以 “全 或 无 ”的 
放电 脉冲 形式 传送 到 大 脑 。 脉 冲 信号 的 “全 或 无 ”特征 就 像 数字 逻辑 ， 但 
放电 脉冲 的 时 间 是 一 个 模拟 变量 ， 没 有 时 钟 同步 ， 因 此 放电 脉冲 序列 是 
一 种 混合 编码 。 

在 米 德 的 视网膜 尾 族 中 ， 处 理 过 程 的 分 级 部 分 是 通过 使 用 位 于 国 值 
拐点 以 下 ， 从 “ 关 ? 到 接近 “ 关 ? 状 态 的 电压 来 完成 的 。 与 之 相反 ， 在 数字 
模式 下 运行 时 ， 品 体 管 迅 速 跳 到 完全 “ 导 通 ”的 状态 ， 这 需要 消耗 更 多 的 
功率 。 因 此 ， 横 拟 超大 规模 集成 电路 忆 片 仅 消 耗 数 字 必 片 所 需 能 耗 的 一 
小 部 分 ， 从 纳 瓦 到 微 瓦 ， 而 不 是 从 坚 瓦 到 瓦 ， 能 量 效率 提升 了 数 百 万 
倍 。 米 德 是 神经 形态 工程 的 创始 人 ， 他 致力 于 构建 基于 大 脑 式 算法 的 必 
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视网膜 已 片 是 米 德 的 明星 研究 生 米 莎 : 马 霍 沃 德 (Misha 
Mahowald) 于 1988 年 创造 的 一 项 令 人 印象 深刻 的 发 明 ( 见 图 14- 
2) 。 风 她 在 加 州 理 工学 院 读本 科 时 主 修 的 是 生物 学 。 在 研究 生 阶段 ， 
她 从 事 的 是 电子 工程 领域 的 工作 。 这 两 个 领域 的 结合 所 带 来 的 洞 见 帮助 
她 获得 了 四 项 专利 。1992 年 ， 她 的 博士 论文 描述 了 在 必 片 上 的 实时 双 目 
匹配 ， 这 是 第 一 个 真正 使 用 集群 行为 完成 艰巨 任务 的 芯片 。 为 此 她 获得 
了 加 州 理工 学 院 的 米尔 顿 和 弗 庆 西 斯 :克拉 泽 奖 (Milton and Francis 
Clauser Prize) 。1996 年 ， 她 的 名 字 还 被 列 入 了 国际 技术 女性 (Women 
in Technology International, WITI) 名 人 和 党。 





图 14-2 1982 年 ， 加 州 理工 学 院 的 米 莎 。 马 堆 沃 德 作为 卡 弗 。 米 德 的 学 生 ， 创 造 了 当时 世界 上 第 
一 个 硅 视 网 膜 。 她 对 神经 形态 工程 的 贡献 是 开创 性 的 。 图 片 来 源 : 托 比 。 德 尔 布 吕 克 。 


晶体 省 在 闵 值 附近 的 物理 特性 ， 与 生物 膜 中 离子 通道 的 生物 物理 特 


性 之 间 存 在 密切 的 对 应 关系 。 马 霍 沃 德 与 牛津 大 学 的 神经 科学 家 凯 万 : 
马丁 (Kevan Martin) 和 罗 德 尼 . 道 格拉 斯 (Rodney Douglas) 合作 开发 
过 硅 神 经 元 ， 辐 并 随同 他 们 一 起 搬 到 了 苏黎世 ， 帮 助 他 们 在 苏黎世 大 
学 和 瑞士 联邦 理工 学 院 建立 了 神经 信息 学 研究 所 ( 见 图 14-3) 。 然 而 后 
来 ， 在 经 历 了 抑郁 症 的 折磨 之 后 ， 米 莎 于 1996 年 结束 了 自己 的 生命 ， 时 
年 33 岁 。 一 位 杰出 的 新 星 就 此 陨落 。 





图 14-3 硅 神 经 元 。 该 模拟 大 规模 集成 电路 芯片 具有 类 似 于 神经 元 中 离子 通道 的 电路 ， 能 够 实时 
对 神经 回路 进行 仿真 操作 ， 正 如 米 莎 。 马 霍 沃 德 在 芯片 上 绘制 的 卡通 图 所 示 。 图 片 来 源 : FR 
尼 。 道 格拉 斯 





必 弗 : 米 德 于 1999 年 从 加 州 理工 学 院 退 休 后 搬 到 了 西雅图 ，2010 年 
我 去 拜访 过 人 他。 在 他 家 的 后 院 ， 可 以 看 到 飞机 飞 过 水 面 有 序 地 降落 到 
Sea-Tac 机 场 。 他 的 父亲 是 一 位 工程 师 ， 在 大 溪水 电 项 目的 一 座 发 电厂 


工作 ， 该 项 目 是 位 于 加 州 中 部 内 华 达 山脉 钴 华 金 河 上 游 系 统 的 一 个 大 型 
水 电 项 目 。 从 早期 的 水 电 技术 同 微 电子 技术 的 飞跃 ， 仅 仅 花 了 一 代 人 的 
时 间 ， 真 令 人 难以 置信 。 卡 弗 的 爱好 是 收集 用 于 巷 挂 电线 的 上 古董 玻璃 和 
陶 移 绝缘 了 于。 如 采 你 选 对 了 地 点 ， 束 会 像 寻找 散落 的 印第安 箭头 一 样 轻 
松 地 找到 它们 。 卡 弗 目 光 长 远 他 拥有 一 台 激 光 陀 崇 仪 ， 首 经 被 用 来 测 
试 量子 物理 学 的 新 方法 ) ， 网 而 他 之 所 以 如 此 高 效 ， 是 因为 他 致力 于 
打造 不 仅 能 够 正 角 运转， 还 可 以 被 你 拿 在 手中 把 玩 的 东西 。 





神经 形态 工程 


1990 年 ， 作 为 在 加 州 理工 学 院 体 学术 年 假 的 仙 童 杰出 学 者 ， 我 喜欢 
参加 实验 室 会 议 ， 尤 其 是 克里斯托弗 . 科 赫 CChristof Koch) (MMR 
有 着 共同 兴趣 的 计算 神经 科学 家 〉 和 他 的 同事 的 会 议 ， 以 及 
Carverland， 即 卡 弗 : 米 德 的 研究 小 组 的 会 议 。Carverland 有 一 个 令 人 司 
疏 的 项 目 硅 耳 蜗 ， 它 具有 和 我 们 耳 中 的 耳蜗 相 类 似 的 频率 调谐 电 
路 。 其 他 研究 人 员 正 在 研究 硅 突 触 ， 包 括 模仿 突 触 可 塑性 的 硅 机 制 ， 以 
便 可 以 在 硅 必 片上 实现 长 期 的 权重 变化 。 来 自 Carverland 研 究 小 组 的 学 
生 从 那 时 开始 走出 实验 室 ， 进 入 了 世界 各 地 的 工程 学 院 。 


1993 年 ， 殉 里 斯 托 弗 . 科 赫 、 罗 德 尼 .道格拉斯 和 我 成 立 了 由 NSF 答 
助 的 神经 形态 工程 研讨 会 ， 每 年 7 月 在 科罗拉多 州 特 柳 赖 德 CTelluride) 
市 举行 为 期 三 周 的 会 议 。 这 个 研讨 会 是 国际 性 的 ， 参 会 的 学 生 和 教师 来 
自 不 同 的 背景 和 国家 。 与 大 多 数 讲座 多 于 实践 的 研讨 会 不 同 ， 特 柳 赖 德 
研讨 会 的 房间 里 挤 满 了 用 微 蕊 片 来 构建 机 器 人 的 学 生 。 不 过 有 一 个 问 
题 ， 将 视网膜 芯片 连接 到 视觉 皮层 芯片 ， 再 将 皮层 芯片 连接 到 电机 输出 
必 片 ， 这 一 步骤 需要 用 到 大 量 的 连 线 。 


用 放电 脉冲 (spikes〉 连接 模拟 大 规模 集成 电路 心 片 则 要 好 得 多 ， 
我 们 的 大 脑 通过 白质 的 长 距离 轴 突 传输 信息 也 是 利用 了 这 种 方式 ， 这 些 
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万 根 线 连接 起 来 却 完全 行 不 通 。 和 幸运 的 是 ， 快 速 的 数字 逻辑 可 以 用 来 使 
每 根 导 线 多 路 复 用 ， 让 许多 视网膜 细胞 能 够 与 同一 导线 上 的 多 个 皮层 细 
胞 进行 通信 。 这 一 过 程 是 通过 发 送 心 片 ， 把 每 一 个 原始 脉冲 的 地 址 发 送 
给 接收 已 片 来 实现 的 ， 接 收 蕊 片 解 码 地 址 ， 并 路 由 到 与 它 相 连接 的 相应 
单元 ， 即 所 谓 的 “地 址 事件 表示 ”(address event representation) . 


托 拜 厄 斯 -德尔 布 昌 克 ( 见 图 14-4) 是 卡 弗 : 米 德 的 研究 生 之 一 ， 避 
他 现在 在 苏黎世 大 学 神经 信息 学 研究 所 工作 。2008 年 ， 他 开发 了 一 种 非 
第 成 功 的 脉冲 视网膜 芯片 ， 叫 作 “ 动 态 视 觉 传 感 右 ”(Dynamic Vision 
Sensor， 以 下 简称 DVS) 。 这 个 必 片 可 以 简化 一 些 视觉 任务 ， 例 如 跟踪 
移动 物体 ， 或 用 两 台 摄 像 机 对 物体 进行 深度 定位 〈 见 图 14-4， 下 
图 ) 。 到 传统 的 数码 相机 是 基于 图 像 帧 的 ， 录 制 视频 的 过 程 就 是 存储 
一 系列 间隔 大 约 26 片 秒 的 图 像 。 这 种 做 法 会 丢失 帧 与 帧 之 间 的 信息 : 设 
想 一 个 旋转 的 托盘 ， 转 速 是 每 秒 200 转 ， 盘 上 有 一 个 光 点 随 盘 转动 ， 该 
光 点 会 在 每 一 帧 中 旋转 5 次 ， 但 是 数码 相机 的 回放 效果 看 起 来 像 一 个 静 
态 环 〈 见 方 框 14.1) 。 相 比 之 下 ， 德 尔 布 吕 克 的 脉冲 摄影 机 可 以 以 微 秒 
级 的 精度 跟踪 移动 点 ， 并 且 只 需 很 少量 的 脉冲 ， 因 此 速度 很 快 ， 而 且 效 
率 很 高 。 作 为 第 一 款 基于 脉冲 和 触发 定时 的 新 一 代 传 感 器 ，DVS 相 机 具 
有 很 大 的 潜力 ， 可 以 改善 包括 自动 驾驶 汽车 在 内 的 许多 应 用 的 性 能 。 
2013 年 特 柳 赖 德 研 讨 会 的 其 中 一 个 项 目 ， 就 是 用 它 来 阻挡 来 日 泉 面 的 进 
球 〈 见 图 14-5) 。 
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图 14-4 动态 视觉 传感器 (DVS) 。 CLA) HEH ERAS E MEX E p 
息 学 研究 所 发 明 的 DVS 相 机 。 这 种 相机 采用 了 专用 芯片 ， 可 以 异步 发 射 脉冲 ， Baroque un 


那样 按 帧 采集 图 像 。 (下 图 ) 相机 的 镜头 将 图 像 聚焦 在 模拟 超大 规模 集成 电路 芯片 上 ， 芯 片 会 
对 每 个 像素 上 光 强 度 的 增加 或 减少 进行 检测 。 脉 冲 洛 着 “开启 ” (on) 导线 发 出 正 增 量 ， 并 洛 
着 “关闭 ” (off) 导线 发 出 负 增 量 。 输 出 脉冲 由 电路 板 处 理 ， 电 路 板 会 显示 出 例如 方 框 14. 1 中 
的 脉冲 图 案 。 你 的 视网膜 是 一 台 非 常 先进 的 DVS 相 机 。 来 自视 网 膜 的 脉冲 图 案 在 大 脑 中 发 生 了 转 
换 ， 但 该 模式 仍然 保留 了 脉冲 你 的 大 脑 中 并 不 存在 任何 完整 的 图 像 ， 即 使 你 是 以 这 种 方式 
感知 世界 的 。 上 图 来 源 : HEM eRe HR. FARR: 三 星 。 





14.1 
动态 视觉 传感器 的 工作 原理 








在 上 图 DVS 摄 像 机 的 图 像 帧 中 ， 白 点 是 来 自 “* 开 ”(on) 通道 的 
脉冲 ， 黑 点 是 来 自 “ 关 ”(off〉 通道 的 脉冲 。 灰 色 表示 没有 脉冲 。 在 
左上 方 的 图 片 中 ， 可 以 检测 到 两 个 脸 部 ， 因 为 它们 在 26 坚 秒 的 帧 间 
孙 内 发 生 了 轻微 的 移动 。 在 右上 角 的 《〈 杂 要 ) 图 片 中 ， 斑 点 的 到 达 
时 间 由 灰 度 表示 ， 因 此 就 能 看 到 物体 的 移动 轨迹 。 左 下 方 图 片 中 的 
旋转 盘 以 每 秒 200 转 〈rps) 的 速度 旋转 。 在 拘 部 中 间 的 图 片 中 ， 轨 
迹 是 同上 移动 的 螺旋 。 右 下 方 螺旋 短暂 的 300 微 秒 切片 中 ， 只 有 80 个 











脉冲 ， 通 过 测量 黑色 和 日 色 脉 冲 的 位 移 ， 并 除 以 时 间 间 隔 ， 很 容易 
计算 出 速度 。 请 注意 ， 具 有 26 毫 秒 取 帧 周期 的 普 过 数码 相机 无 法 跟 
随 以 200 赫 效 旋 转 的 点 ， 因 为 旋转 周期 为 5 坚 秒 ， 并 且 每 个 帧 都 显示 
了 一 个 环 。DVS 相 机 的 唯一 输出 是 一 串 脉 冲 ， 就 像 视网膜 一 样 。 这 
征 表现 场景 的 有 效 方式 ， 因 为 大 部 分 像素 在 大 多 数 时 间 都 保持 不 
变 ， 而 每 个 脉冲 都 携带 着 有 用 的 信息 。 

图 片 来 源 : P. Lichtsteiner, C. Posch, and T. Delbruck, “A 128x128 
120 dB 15 hs Latency Asynchronous Temporal Contrast Vision 























Sensor,"IEEE Journal of Solid-State Circuits 43, no. 2 (2008): 图 11。 资 
料 来 源 : TUREJuHETER4S B. 





脉冲 神经 元 为 计算 领域 打开 了 新 的 机 会 。 例 如 ， 神 经 元 群体 中 放电 
脉冲 的 时 间 可 用 于 调整 存储 的 信息 类 型 。1997 年 ， 享 利 :马克 拉 姆 
(Henry Markram) 和 德国 的 伯 特 : 陡 殉 曼 (Ber Sakmann) 报道 说 ， 通 
过 对 突 触 的 输入 信号 和 突 触 后 神经 元 的 输出 信号 的 重复 配对 ， 他 们 能 够 
对 突 触 强度 进行 增 减 。 纠 如 果 突 触 输 入 放电 发 生 在 突 触 输出 放电 之 前 
的 20 唉 秒 窗口 内 ， 突 触 会 保持 长 期 增强 ， 但 如 果 突 触 输入 放电 的 重复 配 
对 发 生 在 突 触 输出 放电 之 后 的 20 守 秒 窗口 内 ， 则 突 触 会 保持 长 期 衰减 
〈 见 图 14-6) 。 据 报道 , “放电 时 序 依赖 可 塑性 ”(Spike-timing- 
dependent plasticity, faj#KSTDP) 曾经 被 发 现 于 许多 物种 大 脑 中 的 不 同 
部 位 ， 这 种 可 塑性 可 能 对 事件 序列 在 脑 中 形成 长 期 记忆 起 着 重要 的 作 
用 ， 但 同样 重要 的 是 ， 它 很 好 地 解释 了 赫 布 的 假定 《在 第 7 草 中 已 经 进 
行 了 讨论 ) L0 


赫 布 可 塑性 的 普 过 观点 是 ， 当 一 个 神经 元 的 输入 和 输出 同时 出 现 放 
电 脉 冲 时 ， 突 触 的 强度 会 增加 ， 这 是 一 种 重合 检测 的 形式 。 但 是 赫 布 实 
际 上 说 的 是 ,“ 当 细胞 A 的 轴 突 接近 到 足以 激发 细胞 B， 并 反复 或 持续 参 
与 放电 激发 细胞 B 时 ， 细 胞 的 一 些 生 长 过 程 或 代谢 变化 会 及 生 在 其 中 一 
个 或 两 个 细胞 中 ， 使 得 细胞 A 作为 激发 细胞 B 的 细胞 之 一 ) 激发 细胞 B 











的 效率 增加 ”。 卫 也 如 果 细 胞 A 对 激发 细胞 B 有 和 贡献， 那么 细胞 A 必 须 在 
细胞 B 中 的 “ 受 激 发 脉冲 ”之 前 发 射 一 个 < 激发 脉冲 ”。 正 如 赫 布 所 描述 
的 ， 这 种 情况 提示 了 一 种 因果 关系 ， 而 不 仅仅 是 相关 性 。 尽 管 赫 布 没有 
对 降低 突 触 强度 的 条 件 进 行 描述 ， 但 当 输 入 放电 脉冲 发 生 在 输出 放电 脉 
冲 之 后 时 ， 输 入 脉冲 就 不 太 可 能 导致 输出 神经 元 发 生 脉冲 。 如 果 从 长 远 
来 看 ， 突 触 强 度 的 增强 和 降低 必须 达到 平衡 ， 那 么 这 时 断 开 突 触 是 讲 得 
通 的 。 








图 14-5 2013 年 ， 特 柳 赖 德 神经 形态 工程 研讨 会 中 的 神经 形态 守门 员 。 (EA) Fopefolu 
Folowosele ( 左 侧 ) 在 测试 神经 形态 守门 员 ( 右 侧 ) 。 其 他 学 生 和 他 们 的 项 目 可 以 在 背景 中 看 
到 。 (FA) 德尔 布 吕 克 的 DVS 相 机 能 驱动 油漆 搅拌 棒 转 动 。 这 个 守门 员 的 动作 比 学 生 要 快 得 
多 ， 并 且 成 功 地 守住 了 每 一 个 射门 。 我 也 尝试 过 ， 但 是 未 能 进 球 。 图 片 来 源 : FPL o 德尔 
布 吕 克 。 
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图 14-6 放电 时 序 依赖 的 可 塑性 (STDP) o CE BED HAM BHT AAG AS RBI + HR 
FAR (Santiago Ram6 ny Cajal) 绘制 的 皮层 中 的 锥 体 神 经 元 。 神 经 元 A 的 输出 轴 突 通过 突 触 
与 神经 元 0 的 树 突 接 触 《 如 箭头 所 示 ) o (ER) 与 左 侧 图 中 类 似 的 两 个 神经 元 被 用 电极 穿刺 并 
施加 刺激 ， 使 两 个 神经 元 产生 的 尖峰 之 间 存 在 时 间 延 迟 。 当 神经 元 的 输入 放电 与 输出 放电 重复 
配对 时 ， 如 果 突 触 前 神经 元 放电 在 突 触 后 神经 元 放电 之 前 20 毫 秒 的 窗口 内 到 达 ， 则 突 触 强度 
(垂直 轴 ) 增加 。 如 果 顺 序 相 反 ， 则 强度 降低 。 左 图 来 源 : Ram 6 ny Cajal, S. Estudios 
Sobre la Degeneraci ón y Regeneraci óndel Sistema Nervioso(Moya, Madrid, 1913- 
1914) ， 图 281。 右 图 来 源 : G. Q. Bi and M. M. Poo, “Synaptic Modifications in 
Cultured Hippocampal Neurons: Dependence on Spike Timing, Synaptic Strength, and 
Postsynaptic Cell Type,” Journal of Neuroscience 18 (1998): 10464-10472, R7. XH 
来 源 : BRA. 





在 特 柳 赖 德 神经 形态 研讨 会 上 ， 模 拟 超大 规模 集成 电路 倡导 者 和 数 
字 超 大 规模 集成 电路 设计 师 之 间 存 在 着 一 场 持续 不 断 的 争论 。 模 拟 超大 





规模 集成 电路 必 片 有 许多 优点 ， 例 如 所 有 电路 并 行 工作 时 功 耗 非常 低 ， 
但 也 存在 缺点 ， 例 如 由 于 唱 体 管 的 多 样 性 ， 在 设计 图 上 相同 的 晶体 管 产 
生 的 电流 可 以 相差 t+50%。 相 比 之 下 ， 数 字 超 大 规模 集成 电路 虽然 比较 
精确 ， 速 上 度 更 快 ， 设 计 更 容易 ， 但 需要 消耗 更 多 的 功 紊 。 德 尔 门 德 拉 
英 德 哈 (Dharmendra Modha) 在 加 利 福 尼 亚 州 阿尔 马 登 市 《Almaden ) 
IBM 研 究 所 的 团队 开发 了 一 于 数字 已 片 ， 包 含 4096 个 处 理 核心 和 54 亿 个 
晶体 管 ， 被 称 为 “True ”North”。 卫 引 尽 管 该 芯片 可 以 被 配置 来 实现 模拟 
100 万 个 突 触 神经 元 ， 并 连接 2.68 亿 个 突 触 ， 却 仅仅 需要 消耗 70 嗓 瓦 的 
功率 。 但 是 这 些 突 触 的 强度 是 固定 的 ， 这 种 不 变性 限制 了 对 许多 重要 特 
征 的 实现 ， 如 强度 的 弱化 或 增强 。 


具有 脉冲 神经 元 的 网 络 还 有 另 一 个 缺点 ， 即 梯度 下 降 。 脉 冲 时 间 是 
不 连续 的 ， 而 梯度 下 降 要 求 神经 元 的 输入 输出 值 在 时 间 上 是 连续 的 。 这 
就 限制 了 可 训练 脉冲 网 络 的 复杂 性 。 梯 度 下 降 在 训练 “输出 随 输入 连续 
变化 ”神经 元 的 深度 网 络 方面 取得 了 巨大 成 功 ， 神 经 元 的 输出 函数 是 可 
微分 的 ， 这 是 反 向 传播 学 习 算 法 的 基本 特征 。 尽 管 在 不 可 微分 脉冲 网 络 
中 ， 脉 冲 的 发 生 不 具有 连续 性 ， 但 是 我 实验 室 的 博士 后 研究 员 本 . 哈 
(Ben Huh) 最 近 克 服 了 这 个 缺点 ， 他 找到 了 一 种 方法 ， 能 够 让 脉冲 神 
经 元 的 循环 网 络 模型 使 用 梯度 下 降 ， 在 长 时 间 序 列 上 执行 复杂 的 任 
务 。 呈 站 这 一 成 果 打 开 了 深度 脉冲 网 络 的 大 门 。 











摩尔 定律 的 终结 


正如 摩尔 定律 预测 的 那样 ， 自 20 世 纪 50 年 代数 字 计 算 机 发 明 以 来 ， 
计算 机 的 能 力 增加 了 超过 1 万 亿 倍 。 从 来 没有 技术 能 以 如 此 高 的 数量 级 
呈 指 数 增 长 ， 计 算 机 已 经 融入 了 几乎 所 有 制造 设备 ， 从 玩具 到 汽车 。 计 
算 机 可 以 目 动 调节 现代 望远镜 的 目 适 应 光学 系统 ， 以 最 大 限度 地 提高 其 
DIFE: 它们 可 以 分 析 现 代 显 微 镜 捕获 的 光子 ， 以 超 分 辩 京 定位 分 子 。 
当今 的 每 一 个 科技 领域 都 依赖 于 超大 规模 集成 电路 必 方 。 











卡 弗 : 米 德 预测 ， 这 些 芯片 的 升级 是 基于 缩小 元 件 间 线 宽 的 可 能 
性 ， 但 是 目前 的 宽度 已 经 达到 了 物理 极限 : 导线 中 的 电子 太 少 ， 可 能 会 
泄漏 或 被 随机 电压 阻挡 ， 甚 至 使 数字 电路 都 不 再 可 靠 。 吕 年 摩 尔 定律 要 
终结 了 吗 ? 我 们 需要 完全 不 同 的 体系 结构 来 继续 提高 处 理 能 力 ， 这 种 结 
构 能 够 不 依赖 于 数字 设计 的 完美 精度 。 正 如 混合 动力 汽车 将 电动 机 的 效 
率 与 汽油 发 动机 的 续航 结合 起 来 一 样 ， 混 合 数字 和 神经 形态 设计 正在 兴 
起 ， 能 够 将 神经 形态 芯片 的 计算 低 功 耗 与 通信 数字 芯片 的 高 带宽 相 结 
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摩尔 定律 的 表述 仅仅 是 基于 心 片 的 处 理 能 力 。 随 着 并 行 架 构 在 随后 
50 年 内 的 不 断 发 展 ， 摩 尔 定律 应 该 被 考虑 了 能 量 和 厨 吐 量 的 定律 所 取 
代 。 在 俄 勒 交州 波 特 兰 举 办 的 英特尔 2018 NICE 大 会 上 ， 来 自 美国 和 欧 
洲 的 研究 人 员 展 示 了 三 款 新 的 神经 形态 必 片 : 来 自 英特尔 的 Loihi 研 究 访 
片 ， 以 及 由 欧洲 人 类 大 脑 项 目 支 持 的 两 款 第 二 代 心 片 。 随 着 大 规模 并 行 
体系 结构 的 发 展 ， 能 够 在 这 些 体系 结构 上 运行 的 新 算法 也 陆续 被 创造 出 
来 。 但 是 这 些 体系 结构 中 的 蕊 片 需要 交流 信息 ， 这 也 是 第 15 章 所 要 讨论 
的 内 容 。 
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15 
信息 科学 


我 从 来 没有 想 过 ， 有 一 天 我 会 成 为 无 所 不 知 的 人 ， 而 事实 上 ， 我 和 
现在 任何 能 上 网 的 人 都 做 到 了 。 信 息 在 互联 网 上 以 光速 传播 ， 从 互联 网 
上 获取 信息 比 从 书架 上 的 书 里 获取 信息 更 方便 。 我 们 生活 在 各 种 形式 的 
言 轧 爆炸 的 时 代 。 科 学 仪器 ， 从 望远镜 到 显微镜 ， 搜 集 的 信息 量 远 超 现 
在 训练 机 器 学 习 所 使 用 的 数据 集 。 美国 国家 安全 局 使 用 机 器 学 习 来 过 渡 
他 们 从 各 处 搜集 到 的 信息 。 经 济 活动 走 向 了 数字 化 ， 许 多 公司 对 有 编程 
技能 的 人 才 的 需求 量 与 日 俱 增 。 在 世界 从 工业 经 济 走 癌 信 息 经 济 的 同 
时 ， 教 育 和 职业 培训 也 必须 适应 这 一 变化 。 这 一 切 已 经 对 我 们 的 世界 产 
生 了 深远 影响 。 











用 字 市 丈量 世界 


1948 年 ， 在 AT&T 公 司 位 于 新 泽 西 州 默 里 山 (Murray Hill) 的 贝尔 
实验 室 里 ， 克 劳 德 . 香 农 (Claud Shannon， 见 图 15-1) 提出 了 一 种 非常 
简单 却 很 微妙 的 信息 理论 ， 来 理解 有 噪声 的 电话 线 里 的 信号 传输 问 
题 。 岂 香农 的 理论 推动 了 数字 通信 的 革命 ， 并 为 移动 电话 、 数 字 电 视 
以 及 互联 网 的 诞生 葛 定 了 基础 。 打 电话 的 时 候 ， 你 的 声音 被 编码 为 “ 比 
特 ”， 通 过 无 线 电 波 和 数字 电缆 传送 到 接收 端 ， 接 收 端 再 将 比特 解码 并 
转化 为 声音 。 信 息 论 给 通信 信道 (图 15-2) 的 带宽 确定 了 上 限 ， 逼 近 香 
农 极 限 的 不 同 编码 也 被 设计 了 出 来 。 








图 15-1 克 劳 德 。 香农 与 电话 交换 网 络 ( 上 照片 拍摄 于 1963 年 前 后 ) 。 他 发 明 信 息 论 时 仍 在 AT&T 贝 
尔 实验 室 任职 。 图 片 来 源 : Alfred Eisenstaedt/The LIFE Picture Collection/Getty 
Images。 
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图 15-2 香农 的 通信 系统 模型 。 该 消息 被 编码 成 二 进 制 比特 ， 并 沿 着 一 条 可 能 是 电话 线 或 无 线 电 
波 的 信道 向 下 传输 ， 在 终端 被 接收 和 解码 。 以 “每 秒 比 特 数 ”为 单位 的 信道 容量 取决 于 系统 中 
的 噪声 量 。 


尽管 世界 上 的 信息 形式 丰 宇 多 样 ， 有 一 种 测量 方式 却 能 够 精确 测量 








一 个 数据 集中 信息 的 大 小 。 信 息 的 单位 是 二 进 制 比特 ， 每 个 比特 只 能 
0 或 1 两 种 值 。 一 个 字 节 包含 8 个 比特 。 高 质量 照片 的 信息 内 容 以 兆 字 市 
或 者 说 百 万 字 市 计数 。 手 机 的 存储 信息 以 吉 子 节 CGB) 或 称 干 光 字 市 
计数 。 网 络 上 的 数据 以 招 字 市 (PB) RRA A PTTL 











用 数学 思维 解决 通信 难题 


EIEEE (电气 和 电子 工程 师 协 会 ) 的 年 度 国际 研讨 会 上 ，IEEE 信 
SH Fe OTS) MSMR THE BRE’, KERB TK H 
BFE BMA BJ ZR ARTE. TE19854E w El fp SEE BULZIS Z NP] AS RES WM 
上 , “香农 奖 ”被 颁发 给 了 南 加 州 大 学 的 所 罗 门 -哥伦布 (Solomon 
Golomb， 图 15-3) ， 他 在 移 位 寄存 器 序列 (shift register sequences) 方 
面 的 工作 为 现代 数字 通信 奠定 了 基础 。[ 妆 移 位 寄存 器 序列 是 一 种 生成 0 
和 1 的 长 伪 随 机 序列 的 算法 。 每 次 你 用 手机 打 电 话 时 ， 都 使 用 了 移 位 寄 
存 嚣 序列。 哥伦布 展示 了 如 何 使 用 移 位 寄存 器 序列 对 信号 进行 蜗 效 编 
人 码 ， 然 后 可 以 在 接收 器 处 传输 和 解码 。 如 果 将 手机 和 其 他 通信 系统 产生 
移 位 寄存 器 序列 的 次 数 系 加 起 来 ， 得 到 的 数字 将 是 惊人 的 : RT 
次 ， 即 1027 次 (1,000,000,000,000,000,000,000,000,000)。[3] 














图 15-3 所 罗 门 。 哥 伦 布 在 2013 年 获得 了 美国 国家 科学 奖章 。 他 对 移 位 寄存 器 序列 进行 的 数学 分 
析 使 人 类 能 够 与 深 空 探测 器 通信 ， 当 时 他 在 位 于 帕 萨 迪 纳 (Pasadena) 的 加 州 理工 学 院 喷气 推 
进 实验 室 CUPL) 工作 ; 移 位 寄存 器 序列 后 来 被 嵌入 到 手机 通信 系统 中 。 每 当 你 使 用 手机 的 时 
候 ， 都 在 使 用 他 的 数学 代码 。 图 片 来 源 : 南 加 州 大 学 。 


我 曾 问 过 所 罗 门 哥伦布 “也 是 我 的 盏 父 ) 他 是 如 何 得 到 如 此 优雅 
的 方案 来 解决 通信 问题 的 。 他 说 这 是 来 自 他 在 数论 方面 的 训练 ， 这 是 数 
学 中 最 抽象 的 部 分 之 一 。 当 他 在 巴尔 的 摩 的 Glenn L. Martin 5] fice 33] 
实习 生 时 ， 惑 曾 接触 过 移 位 寄存 器 序列 。1956 年 ， 在 哈佛 大 学 获得 数论 
专业 《一 种 高 度 抽象 的 数学 领域 ) 的 博士 学 位 后 ， 他 到 了 加 州 理 工学 院 
喷气 推进 实验 室 (Jet Propulsion Laboratory， 以 下 简称 JPL) 工作 。 在 那 
里 ， 他 担任 通信 组 的 负责 人 ， 并 从 事 空 间 通 信 工 作 。 深 空 探测 喜 被 发 送 
到 太阳 系 的 远 端 ， 但 返回 的 信号 微弱 且 嘲 杂 。 移 位 寄存 器 序列 和 纠 错 人 码 
大 大 改善 了 与 空间 探测 器 通信 的 效果 ， 相 同 的 数学 原理 更 是 为 现代 数字 
通信 葛 定 了 基础 。 

哥伦布 在 JPEL 的 时 候 曾 聘 请 过 另 一 位 杰出 的 信息 理论 家 安德鲁 :维特 
Lt (Andrew Viterbi) ， 并 将 他 介绍 给 了 从 打 省 理工 来 JPL 休 学 术 年 假 的 
厄 文 - 雅 各 布 C(Irwin Jacobs) 。 几 十 年 后 的 1985 年 ， 维 特 比 和 雅 各 布 联 














手 创建 了 高 通 ， 从 此 彻底 改变 了 手机 技术 。 该 公司 使 用 移 位 寄存 器 序列 
将 信息 分 布 在 很 宽 的 频 珊 上 进行 传播 ， 这 比 使 用 单一 频率 的 通信 方式 更 
有 效 。 该 想法 的 一 个 简单 版 本 可 以 追溯 到 海带 : 拉 玛 (Hedy Lamarr) 
〈 见 图 15-4) ， 她 是 一 位 电影 演员 兼 发 明 家 ， 于 1941 年 与 他 人 共同 分 享 
了 跳 频 (frequency hopping) 技术 的 专利 ， 这 是 她 在 第 二 次 世界 大 战 期 











间 为 军 方 开发 的 安全 通信 系统 。 财 哥伦布 离开 JPL 加 入 南 加 州 大 学 后 ， 
爱德华 :波斯 纳 〈 就 是 创建 了 NIPS 的 爱德华 .波斯 纳 ) 接管 了 他 的 团队 ， 
但 哥伦布 仍然 在 继续 为 他 的 前 JPL 团 队 提供 支持 和 建议 。 


AS 





[15-4 海 蒂 。 拉 玛 于 1940 年 在 米 高 梅 拍摄 的 宣传 照 。 她 是 第 二 次 世界 大 战 期 间 王 台 和 银幕 上 的 
明星 ， 也 是 跳 频 技术 的 联合 发 明 人 之 一 。 该 技术 与 军 方 和 许多 手机 中 使 用 的 扩 频 通信 有 关 。 


移 位 寄存 器 序列 背后 的 数学 是 数论 中 比较 深奥 的 部 分 。 当 哥伦布 从 
哈佛 大 学 获得 博士 学 位 时 ， 他 的 博士 生 导 师 和 当时 的 大 多 数 数 学 家 都 相 
信 ， 纯 数学 永远 不 会 有 任何 实际 的 应 用 。 剑 桥 学 者 哈代 《〈G. H. Hardy) 
在 其 富 于 影响 力 的 著作 《一 位 数学 家 的 道 欺 》 CA Mathematician's 








Apology) 内 中 分 享 了 这 种 观点 。 他 宣称 “好 ”的 数学 必须 是 纯粹 的 ， 而 
应 用 数学 是 “无 趣 的 ”。 但 数学 只 是 数学 本 身 ， 并 没有 纯粹 和 应 用 之 分 。 
一 些 数学 家 可 能 希望 他 们 的 数学 是 纯粹 的 ， 但 他 们 无 法 阻止 它 解决 现实 
世界 中 的 实际 问题 。 事 实 上 ， 哥 伦 布 的 职业 生涯 主要 是 通过 找到 “ 纯 数 
学 ”中 正确 的 工具 来 解决 实际 问题 而 被 定义 的 。 

哥伦布 还 发 明了 数学 游戏 。 他 的 书 《 多 格 骨牌 》 
(Polyominoes) [引入 了 包含 许多 个 正方 形 的 各 种 形状 ， 扩 展 了 只 有 
两 格 正方 形 的 多 米 诡 肯 牌 。 马 本 :加 德 纳 (Marin Gardner) 在 《科学 美 
国人 》 的 “数学 游戏 "专栏 中 推广 了 多 格 骨 牌 。 四 格 骨牌 
(Tetrominoes) ， 是 由 四 个 方块 组 成 的 形状 ， 俄 罗斯 方块 的 灵感 就 来 源 
FH. RE ATR RES A Env, DOR E AE AN a 
样 落 下 来 ， 需 要 将 它们 引导 至 底部 的 插 槽 。 多 格 骨 牌 至 今 仍然 是 一 种 流 
行 的 棋盘 游戏 ， 并 且 在 数学 的 一 个 子 领 域 里 引发 了 一 系列 有 趣 的 组 合 问 
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哥伦布 也 是 研究 《圣经 》 的 学 者 ， 会 说 几 十 种 语言 ， 包 括 日 语 和 普 
通话 。 比 阿 特 丽 斯 兽 经 带 给 他 道格拉斯 .起 夫 斯 塔 特 (Douglas 
R.Hofstadter) JE CER, LER Ei: 集 异 壁 之 大 成 》 

CGódel,Escher, Bach: An Eternal Golden Braid) 的 初版 。 他 打开 卷首 ， 
标题 说 这 是 十 希 伯 来 语 《 创 世 记 》 的 前 20 行 。“ 首 先 ， 它 是 颠倒 的 。?” 他 
说 ， 然 后 把 书 转 过 来 , “其 次 ， 这 是 古 撒 玛 利 亚 语 ， 而 不 是 古 希 伯 来 
语 。 第 三 ， 这 不 是 《 创 世 记 》 的 前 20 行 ， 只 是 《 创 世 记 》 前 20 行 每 行 的 
前 7 个 字 。” 他 继续 读 下 去 ， 并 翻译 了 这 上 段 经 文 。 

克 萎 德 . 香 农 参加 了 1985 年 在 布 莱 顿 举行 的 ITS 座 谈 会 ， 哥 伦 布 在 会 
上 做 了 一 场 香 农 讲 座 。 这 是 香农 继 1972 年 自己 的 那 次 讲座 后 ， 参 加 的 唯 
一 一 次 香农 讲座 。 








预测 是 如 何 产 生 的 











在 通信 系统 中 ， 无 论 是 空间 上 还 是 时 间 上 ， 变 化 都 具有 很 高 的 信息 
价值 。 强 度 均 勾 的 图 像 和 没有 变化 的 信号 一 样 ， 几 乎 不 提供 任何 信息 。 
癌 大 脑 发 送信 号 的 传感器 主要 用 来 检测 变化 ， 我 们 已 经 在 第 5 章 的 视 网 
腊 和 第 14 章 中 托 拜 厄 斯 -德尔 布 吕 克 的 DVS 相 机 中 看 到 了 一 些 例 子 。 一 
旦 在 视网膜 上 稳定 下 来 ， 图 像 会 在 几 秒 钟 后 消失 。 冉 尽管 我 们 没有 意 
识 到 这 一 点 ， 我 们 的 眼睛 进行 的 微小 跳动 ， 即 微 跳 动 
(microsaccades) ， 每 秒 钟 都 会 发 生 几 次 ， 每 次 跳动 都 会 刷新 我 们 大 脑 
内 部 针对 外 部 世界 所 搭建 的 模型 。 当 外 部 世界 的 某 些 事物 发 生 移动 时 ， 
视网膜 会 及 时 向 上 报告 ， 它 们 的 报告 还 更 新 了 大 脑 的 外 界 模 型 ， 如 图 
15-5 所 示 。 大 脑 的 模型 是 一 个 层级 结构 的 模型 ， 传 入 的 感官 信息 和 模型 
期 望 值 之 间 的 比较 发 生 在 多 个 层次 上 。 册 明亮 的 闪光 或 巨大 的 噪声 ， 
通过 上 自 下 而 上 地 突显 差异 ， 立 刻 引 起 了 你 的 注意 。 但 是 你 通过 对 记忆 自 
上 而 下 的 比较 ， 注 意 到 条 面 上 的 某 些 东西 在 更 高 的 层级 上 发 生 了 变化 。 
所 有 这 些 在 大 脑 中 实时 发 生 的 事情 ， 都 会 让 人 想起 卡 弗 : 米 德 的 口头 
Hé, MARE Rone. I 
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图 15-5 具有 层级 结构 的 预测 编码 框架 。 感 知 取决 于 对 早期 感官 事件 提取 的 规律 性 的 期 望 。 在 这 
个 框架 中 ， 由 较 高 层级 皮层 产生 的 当前 感知 信号 的 预测 来 自 E 和 R 群 体 之 间 的 相互 作用 ， 并 且 被 
反馈 到 下 面 的 层级 〈E 是 误差 单元 ，R 是 表征 单元 ) 。 只 有 预测 误差 会 向 前 传播 。 这 是 对 亥 姆 霍 
效 无 意识 推理 的 实现 。 图 片 来 源 : Gabor Stefanics, Jan Kreml á ček, and Istvan 
Czigler, “Visual Mismatch Negativity: A Predictive Coding View, " Frontiers in 
Human Neuroscience 8 (2014): 666, K1. doi:10. 3389/fnhum. 2014. 00666. 
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推理 ， 或 自 上 而 下 生成 视觉 信息 以 消除 噪声 ， 填 充 不 完整 的 信息 ， 并 解 
释 视 觉 场 景 。 呈 中 例 如 ， 一 个 熟人 的 照片 在 我 们 视网膜 里 是 有 单眼 深度 
线索 的 ， 因 为 我 们 熟悉 那个 人 的 实际 大 小 ， 并 且 具 备 视网膜 中 大 小 如 何 
随 着 距离 变化 的 经 验 。 在 更 高 的 认 知 水 平 上 ， 和 詹姆斯 :麦克 菜 兰 和 大 卫 : 
鲁 姆 哈 特 发 现 ， 当 字母 位 于 单词 中 时 ， 被 试 者 能 够 比 在 没有 语 境 的 非 单 
词 环境 中 更 快 地 将 它们 识别 出 来 。 呈 他 们 的 并 行 处 理 模型 展现 出 了 类 
似 的 行为 ， 这 使 得 两 位 研究 人 员 相信 ， 他 们 正在 沿 着 理解 信息 如 何在 我 
们 的 大 脑 中 呈现 的 正确 轨道 上 前 行 。 





深度 理解 大 脑 


2013 年 4 月 2 日 由 和 白宫 发 起 的 美国 BRAIN 计 划 ”( 见 图 15-6) 的 目 
标 ， 是 创造 新 的 神经 技术 ， 以 加 速 我 们 对 “终极 信息 机 器 >， 即 大 脑 的 功 
能 和 障碍 的 进一步 理解 。 正 如 NIPS 会 议 将 许多 学 科 的 研究 人 员 聚 集 在 一 
起 创建 有 学 习 能 力 的 机 器 一 样 ，“BRAIN 计 划 ” 正 在 将 工程 师 、 数 学 家 和 
物理 学 家 引入 神经 科学 领域 ， 以 改进 探测 大 脑 的 工具 。 随 着 我 们 对 大 
脑 ， 尤 其 是 关于 学 习 和 记忆 机 制 的 了 解 更 加 深入 ， 我 们 将 更 好 地 理解 大 
脑 功能 的 原理 。 
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图 15-6 在 2013 年 4 月 2 日 白宫 宣布 “BRAIN 计 划 ” 之 前 ， 参 加 会 议 的 相关 机 构 和 研究 所 的 代表 
ie MEZE) 科 维 理 基金 会 首席 科学 官 全 美 永 〈Miyoung Chun) ， 她 起 草 了 “BRAIN 计 
RI” QR; 威廉 。 纽 索 姆 (William Newsome) ，NIH 关 于 “BRAIN 计 划 ” 咨 询 委员 会 的 联合 主 
席 ; 弗朗西斯 。 柯 林 斯 (Francis Collins) ，NIH 院 长 ; 杰 拉 德 。 癌 宾 (Gerald Rubin) , Æ 
华 德 。 休 斯 医学 研究 所 珍妮 莉 娅 研究 园区 (Janelia Research Campus of the Howard Hughes 
Medical Institute) 主任 ; 科 拉 。 马 雷 特 (Cora Marrett) ， 美 国 国 家 科学 基金 会 主任 ; 巴 拉 
克 。 奥 巴 马 (Barack Obama) ， 时 任 美 国 总 统 ; K e dF (Amy Gutmann) ， 总 统 生命 伦理 
委员 会 主席 ; 罗伯特 。 康 恩 (Robert Conn) ， 科 维 理 基 金 会 主席 ; 阿尔 提 。 普 拉巴 卡尔 
(Arati Prabhakar) ，DARPA 主 任 ; 艾 伦 。 琼 斯 (Alan Jones) ， 艾 伦 脑 科学 研究 所 所 长 ; 

我 ， 索 尔 克 研 究 所 。 图 片 来 源 : HSM e € (Thomas Kalil) 。 


虽然 在 分 子 和 细胞 水 平 上 对 大 脑 有 了 深入 的 了 解 ， 但 我 们 还 没有 在 
更 高 层次 上 对 大 脑 的 结构 有 一 个 同等 的 认 知 。 我 们 已 经 知道 ， 不 同类 型 
的 信息 被 分 散 到 皮层 的 不 同 部 分 进行 储存 ， 却 不 清楚 如 何 快速 检索 所 有 
分 散 的 信息 以 解决 复杂 的 问题 ， 例 如 我 们 能 够 通过 存储 在 皮层 不 同 部 位 
的 人 脸 的 图 像 ， 识 别 出 一 个 人 的 名 字 。 这 个 问题 与 大 脑 中 意识 的 起 源 密 
切 相 关 。 


我 的 实验 室 最 近 发 现 了 人 类 大 脑 在 睡眠 期 间 的 整体 活动 模式 ， 可 以 











让 我 们 了 解 大 脑 皮 层 中 广泛 分 布 的 信息 是 如 何 联系 在 一 起 的 。 在 恢复 性 
慢 波 睡眠 和 快速 眼 动 (REM) 睡眠 之 间 的 睡眠 阶段 ， 高 度 同 步 的 被 称 
AU“ THERE” Csleep spindles) 的 时 空 振荡 ， 主 导 着 皮层 的 活动 。 这 些 10 
到 14 赫 兹 的 振荡 会 持续 几 秒 钟 ， 并 在 夜间 发 生 数 干 次 。 有 实验 证 据 表 
明 ， 在 我 们 睡觉 时 睡眠 锭 参与 了 记忆 的 巩固 。 通 过 来 自 人 脑 皮 层 的 记 
K KKH (Lyle Muller) 、 西 德 尼 : 卡 什 (Sydney Cash) . ZrbU&- 
皮 安 托尼 (Giovanni Piantoni) 、 多 米 尼克 :科勒 (Dominik Koller) ~ 3€ 
里 元 : 哈 格 伦 (Eric Halgren) 和 我 共同 发 现 ， 睡 眠 狂 在 皮层 中 是 一 种 无 
处 不 在 的 ， 扫 过 皮层 所 有 部 分 的 电 活 动 的 循环 行 波 〈 图 15-7) . 2g 
们 称 它 们 为 “ 莱 娅 公主 波 ”(Princess Leia Waves? ， 因 为 它们 看 起 来 跟 
这 位 公主 的 发 型 很 像 〈 图 15-8) 。 我 们 推出， 睡眠 逛 可 能 是 皮层 将 白天 
获得 的 新 信息 ， 与 先前 分 布 在 皮层 中 的 记忆 相 结 合 的 一 种 方式 ， 加 强 了 
它们 之 间 的 长 距离 连接 。 这 是 “BRAIN 计 划 ” 推 动 的 系统 神经 科学 层次 的 
众多 研究 项 目 之 一 。 
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图 15-7 在 人 类 大 脑 皮 层 中 的 循环 电子 行 波 。 这 是 在 睡眠 锭 期 闻 ， 从 皮层 表面 上 用 8X8 网 格 电 极 
记录 下 来 的 图 像 。 睡 眠 锭 涉及 记忆 巩固 。( 左 ) 睡眠 锭 是 沿 着 箭头 所 示 方 向 穿 过 皮层 侧 视 图 的 
循环 行 波 ， 每 80 毫 秒 完成 一 个 循环 。 这 一 过 程 在 夜间 会 重复 数 千 次 。 (4) 小 箭头 表示 循环 期 
间 ， 在 皮层 表面 64 个 记录 点 上 行 波 移动 出 现 最 大 增加 量 的 方向 。 图 片 来 源 : L. Muller, G. 
Piantoni, D. Koller, S. S. Cash, E.Halgren and T. J.Sejnowski, “Rotating Waves 
during Human Sleep Spindles Organize Global Patterns of Activity during the 

Night" Supplementary 7, subject 3, TPF. EE: A2B, 4A: Al. 








[015-8 uğ e ŽE (Carrie Fisher) 饰演 的 菜 娅 公主 ， 巩 固 了 对 1977 年 史诗 级 科幻 电影 《 星 
球 大 战 》 的 记忆 。 她 的 发 琶 很 像 睡 眠 锭 期 间 穿 过 皮层 的 循环 流 场 《 对 比 图 15-7) 。 


大 脑 的 操作 系统 


数字 计算 机 和 神经 网 络 的 体系 结构 不 同 。 在 数字 计算 机 中 ， 内 存 和 
CPU 在 空间 上 是 分 开 的 ， 并 且 内 存 中 的 数据 必须 依照 顺序 移动 到 CPU 
中 。 在 神经 网 络 中 ， 处 理 过 程 在 内 存 中 并 行进 行 ， 这 就 消除 了 内 存 和 处 
理 器 之 间 的 数字 瓶颈 ， 并 且 人 允许 大 规模 并 行 处 理 ， 因 为 网 络 中 的 所 有 单 
元 都 在 同时 工作 。 神 经 网 络 中 的 软件 和 硬件 之 间 也 没有 区 别 。 学 习 是 通 
过 修改 硬件 来 进行 的 。 

从 20 世 纪 80 年 代 开 始 ， 当 计算 机 集群 被 装配 在 一 个 机 架 中 时 ， 数 字 
计算 机 已 经 变 得 可 以 大 规模 并 行 了 。 最 早 的 并 行 计算 机 之 一 是 
Connection Machine, HF} e- æA] (Danny Hillis) 于 1985 年 设计 出 


来 ， 并 由 Thinking Machines 公 司 出 售 。 和 希 利 斯 是 一 位 工程 师 和 发 明 家 ， 
他 在 麻 省 理工 学 院 接受 培训 时 ， 人 们 已 经 清楚 地 认识 到 ， 要 让 人 工 智 能 
解决 非常 复杂 的 现实 世界 问题 ， 就 需要 更 多 的 计算 能 力 。20 世 纪 90 年 

代 ， 根 据 摩 尔 定律 ， 计 算 机 忌 片 上 的 品 体 管 数 量 持续 增加 。 我 们 有 可 能 
将 许多 处 理 单元 放置 在 同一 芯片 上 ， 许 多 芯片 放置 在 同一 电路 板 上 ， 许 
多 电路 板 放置 在 同一 机 箱 中 ， 以 及 把 许多 机 箱 放 在 同一 个 房间 里 ， 结 果 
是 ， 如 今 地 球 上 最 快 的 计算 机 拥有 数 百 万 个 内 核 ， 并 且 每 秒 可 以 实现 数 
二 万 亿 次 操作 。 百 亿 亿 次 级 的 计算 正在 以 每 秒 10 亿 乘 10 亿 次 操作 的 形式 
出 现 。 


模拟 神经 网 络 可 以 最 大 限度 地 利用 这 种 大 规模 并 行 硬件 。 多 个 核心 
可 以 通过 编程 为 同一 个 网 络 模型 并 行 工 作 ， 这 就 大 大 加 快 了 处 理 速 度 ， 
但 也 会 导致 处 理 器 之 间 的 通信 延迟 。 为 了 减少 这 些 延 迟 ， 一 些 公司 正在 
构建 专用 数字 协 处 理 器 ， 这 将 极 大 地 加 速 网 络 模拟 ， 使 语音 和 视觉 等 认 
知 任务 成 为 单一 强大 的 指令 。 使 用 深度 学 习 网 络 蕊 片 的 智能 手机 将 变 得 
更 加 智能 化 。 


数字 计算 机 具有 将 我 们 与 硬件 分 开 的 操作 系统 〈 方 框 15.1) 。 当 我 
们 在 笔记 本 电脑 上 运行 文字 处 理 程序 ， 或 在 手机 上 使 用 应 用 程序 时 ， 操 
作 系 统 会 处 理 程序 的 细节 ， 例 如 将 按键 信息 放 到 内 存 的 哪个 位 置 ， 以 及 
如 何在 屏幕 上 显示 程序 输出 。 我 们 的 意识 在 大 脑 的 操作 系统 上 运行 着 应 
用 程序 ， 大 脑 操 作 系统 将 信息 的 内 容 、 位 置 ， 以 及 存储 方法 与 意识 隔离 
开 来 。 我 们 并 不 知道 大 脑 是 如 何 储存 我 们 一 生 积累 的 大 量 经 验 的 ， 也 不 
知道 这 些 经 验 如 何 塑造 我 们 的 行为 。 虽 然 有 可 能 明确 地 解释 一 些 经 验 ， 
但 我 们 所 理解 的 这 部 分 只 是 冰山 一 角 。 我 们 的 大 脑 如 何 管理 这 些 信息 仍 
然 是 个 谜 。 如 宁 我 们 能 够 弄 清楚 大 脑 的 操作 系统 是 如 何 工 作 的 ， 就 可 以 
基于 相同 的 一 般 原 则 来 组 织 大 数据 。 相 应 地 ， 意 识 也 可 以 被 解释 为 运行 
在 大 脑 操作 系统 上 的 应 用 程序 。 














生物 学 与 计算 科学 
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统计 学 入 门 课程 之 外 ， 通 第 只 需要 一 点 额外 的 数学 培训 就 能 够 分 析 他 们 
的 数据 ， 这 些 数据 很 少 ， 也 很 难 获得 。 在 2002 年 由 长 岛 冷 果 港 实验 室 举 
办 的 分 子 遗 传 学 研讨 会 上 ， 我 感觉 自己 就 像 一 条 离 了 水 的 鱼 ， 因 为 我 是 
唯一 一 个 做 计算 主题 演讲 的 人 。 在 我 前 面 演 讲 的 是 分 子 遗 传 学 家 勒 罗 伊 
: 胡 德 (Leroy Hood) ， 他 在 加 州 理 工学 院 工 作 了 多 年 。1987 年 我 在 加 州 
理工 学 院 休 学 术 年 假 时 ， 惊 讶 地 发 现 胡 德 的 实验 室 多 得 几乎 占据 了 整 栋 
大 楼 。 后 来 ， 他 搬 到 了 西雅图 ， 并 在 2000 年 联合 创立 了 系统 生物 学 研究 
所 。 这 一 新 的 领域 则 在 试图 了 解 细胞 内 所 有 分 子 相 互 作用 的 复杂 性 。 











15.1 
电子 计算 机 的 操作 系统 





操作 系统 对 在 计算 机 的 硬件 上 运行 的 程序 进行 控制 。 如 果 你 使 
用 的 是 个 人 电脑 CPC) ， 那 么 操作 系统 通常 是 Windows; 如 果 你 使 
用 的 是 iPhone， 用 的 则 是 iOS 系 统 ， 大 多 数 服 务 器 运行 的 都 是 某 种 版 
本 的 UNIX。 操 作 系统 在 程序 需要 时 分 配 内 存 ; 它 也 可 以 在 幕后 跟踪 
程序 ， 使 用 称 为 “守护 程序 ”(daemons) 的 进程 在 后 台 运 行 ， 并 跟踪 
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的 应 用 程序 可 以 移植 到 不 同 的 计算 机 上 。 





胡 德 在 演讲 中 提 到 ， 有 一 天 他 心血 来 潮 ， 想 知道 为 什么 他 实验 室 工 
资 系 统 里 的 计算 机 科学 家 比 生 物 学 家 要 多 。 他 推 有 新 次， 原因 在 于 生物 学 
己 成 为 一 门 信息 科学 ， 计 算 机 科学 家 对 如 何 分 析 信 息 的 了 解 要 远 远 超过 
生物 学 家 ， 而 生物 学 家 已 被 现代 技术 ， 例 如 基因 测序 ， 所 产生 的 大 量 数 
据 所 淹没 。 明 德 的 演讲 简直 是 为 我 做 了 最 好 的 铺垫 ， 我 当时 的 沽 讲 题目 
古 天 于 信息 如 何在 大 脑 中 神经 元 之 间 的 突 触 上 储存 的 。 

今天 ， 系 统 生物 学 吸引 了 许多 计算 机 科学 家 和 物理 学 家 共同 分 机 和 
理解 DNA 测 序 产生 的 信息 ， 以 及 由 RNA 和 和 蛋白 质 控制 的 细胞 信号 。 一 
个 人 类 细胞 的 DNA 中 有 30 亿 个 碱 基 对 ， 含 有 细胞 生存 、 复 制 和 分 化 所 需 
的 所 有 信息 。 一 些 碱 基 对 是 制造 集 昌 质 的 模板 ， 基 因 组 的 其 他 部 分 包含 
一 个 抽象 代码 ， 对 发 育 过 程 中 使 用 的 基因 进行 调节 ， 以 指导 里 体 和 大 脑 
的 构建 。 大 脑 的 构建 有 可 能 是 宇宙 中 难度 最 高 的 构建 项 目 ， 它 是 由 DNA 
中 藤 入 的 算法 引导 的 ， 这 些 算法 协调 了 大 脑 数 百 个 不 同 部 位 的 数 千 种 不 
同类 型 神经 元 之 间 的 连接 。 























人 工 知 能 能 拥有 媲美 人 类 大 脑 的 操作 系统 


由 基础 科学 研究 发 展 出 来 的 科技 ， 通 常 需 要 50 年 才能 实现 商业 化 。 
20 世 纪 初 ， 由 相对 论 和 量子 理论 带 来 的 重大 发 现 ， 到 20 世 纪 的 后 半期 才 
推动 了 CD 播放 器 、GPS 以 及 电子 计算 机 的 诞生 。20 世 纪 50 年 代 发 现 的 
DNA 以 及 基因 序列 影响 了 当今 医药 和 综合 农业 领域 的 应 用 ， 这 些 应 用 到 
今天 仍 在 影响 经 济 的 发 展 。“BRAIN 计 划 ” 以 及 世界 上 其 他 大 脑 研 究 项 目 
带 来 的 发 现 ， 会 启发 50 年 后 的 应 用 ， 这 些 应 用 现在 看 上 去 还 如 科幻 小 说 
一 般 遥 不 可 及 。 忆 引 我 们 可 以 期 待 ， 到 2050 年 ， 人 工 智 能 会 拥有 能 和 我 





ATA ADAH WSS HERE Ro WERT]. REE FR Ae oS SER IR MR, BOR 
于 它们 现在 所 做 的 投资 和 所 下 的 赌注 。 


[1] Jimmy Soni and Rob Goodman, A Mind at Play: How Claude Shannon Invented the 
Information Age(New York: Simon & Schuster: New York, 2017). 


[2] Solomon Wolf Golomb, Shift Register Sequences: Secure and Limited-Access Code 
Generators, Efficiency Code Generators, Prescribed Property Generators,Mathematical Models, 3rd 
rev. ed. (Singapore: World Scientific, 2017). 


[3] 参阅 Stephen Wolfram, *Solomon Golomb (1932-2016)," Stephen WolframBlog, posted May 
25, 2016. http://blog.stephenwolfram.com/2016/05/solomongolomb-19322016/. 


[4] Richard Rhodes, Hedy's Folly: The Life and Breakthrough Inventions of Hedy Lamarr, the 
Most Beautiful Woman in the World(New York: Doubleday, 2012). 


[5] G. H. Hardy, A Mathematician's Apology(Cambridge: Cambridge University Press,1940). 
[6] Solomon W. Golomb, Polyominoes(New York: Scribner, 1965). 


[7] L. A. Riggs, F. Ratliff, J. C. Cornsweet, and T. N. Cornsweet. “The Disappearance of Steadily 
Fixated Visual Test Objects," Journal of the Optical Society of America43, no. 6 (1953): 495—501. 
[8] Rajesh P. N. Rao and Dana H. Ballard, “Predictive Coding in the Visual Cortex: A Functional 


Interpretation of Some Extra-Classical Receptive-Field Effects," NatureNeuroscience2, no. 1 (1999): 
79-87. 


[9] 这 一 观点 是 米 德 建立 神经 形态 系统 的 动机 ， 和 希望 该 系统 像 大 脑 一 样 ， 也 能 实时 运行 。C. 
Mead, *Neuromorphic Electronic Systems," Proceedings of the IEEE78, no. 10 (1990):1629-1636. 























[10] Hermann von Helmholtz, Helmholtz's Treatise on Physiological Optics, vol. 3: The 
Perception of Vision, trans. James P. C. Southall (Rochester, NY: Optical Society of America, 1925), 
25. Originally published as Handbuch der physiologische Optik.3. Die Lehre von den 
Gesichtswahrnehmungen(Leipzig: Leopold Voss, 1867). 


[11] J. L. McClelland and D. E. Rumelhart, “An Interactive Activation Model of Context Effects 
in Letter Perception: Part 1. An Account of Basic Findings."Psychological Review88, no. 5 (1981): 
401—436; “Part 2. The Contextual Enhancement Effect and Some Tests and Extensions of the Model,” 
PsychologicalReview839, no. 1 (1982): 60—94, 


[12] L. Muller, G. Piantoni, D. Koller, S. S. Cash, E. Halgren, and T. J. Sejnowski,“Rotating 
Waves during Human Sleep Spindles Organize Global Patterns of Activity during the Night," eLife5 
(2016): e17267. 


[13] ÆRA R Sot SIN ee, BE Giu CArhur C. Clarke) 说 过 这 样 一 名 名 














ri: “任何 足 够 先进 的 技术 几乎 都 与 魔法 无 异 。”(Any © sufficientlyadvanced technology is 


indistinguishable from magic. ) 
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生命 与 意识 





当 弗 朗 西 斯 : 克 里 克 的 母亲 问 年 轻 的 克 里 克 他 想 探究 什么 样 的 科学 
问题 时 ， 他 告诉 她 ， 自 己 只 对 两 个 问题 感 兴趣 : 生命 的 奥秘 和 意识 的 奥 
秘 。 山 克 里 克 显然 对 重要 的 事物 有 着 敏锐 的 感觉 ， 但 他 当时 可 能 没有 
意识 到 这 些 问题 的 困难 程度 。 他 的 母亲 并 不 知道 ， 几 十 年 后 的 1953 年 ， 
她 的 儿子 和 詹姆斯- 沃 森 会 发 现 DNA 的 结构 ， 这 种 松散 的 线 状 体 最 终 将 
揭 开 生命 的 一 个 重要 谜团 。 但 克 里 克 (图 16-1)〉 并 不 满足 于 这 一 成 就 。 


元 里 元 在 1977 年 加 入 索 尔 元 研究 所 后 ， 重 新 拾 起 长 久 以 来 对 意识 的 
兴趣 。 他 决定 关注 视觉 意识 (visual awareness) 问题 ， 因 为 人 们 已 经 对 
大 脑 的 视 党 功能 区 有 了 深入 的 了 解 ， 而 了 解 视觉 感知 (visual 
perception) 的 神经 基础 也 将 为 探索 其 他 方面 意识 的 神经 基础 铺 平 道 
p, B 
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图 16-1 弗朗西斯 克 里 克 和 他 的 妻子 奥迪 尔 、 女 儿 杰 硅 琳 在 英国 剑桥 的 康 河上 划船 《拍摄 于 
1957 年 前 后 ) 。 图 片 来 源 : 索 尔 克 生 物 研究 所 。 





20 世 纪 80 年 代 ， 生 物 学 家 对 意识 研究 投入 的 热情 日 渐 消 退 ， 但 这 丝 
室 没 有 影响 克 里 坎 。 视 觉 感知 充满 了 难以 理解 的 约 想 和 谜团 ， 为 了 解释 
它们 在 解剖 学 和 生理 学 上 的 机 理 ， 元 里 元 推 出 了 新 疾 的 “探照灯 假 
说 ”(searchlight hypothesis) 。 呈 神经 节 细 胞 从 视神经 投射 到 丘脑 ， 后 
者 又 将 脉冲 传递 到 视觉 度 层 。 但 为 什么 神经 节 细 胞 不 能 直接 投 映 到 大 脑 
ZERE? 克 里 死 指出 ， 从 皮层 到 丘脑 区 域 的 反馈 投射 就 像 探 照 灯 一 样 ， 
可 能 会 突出 显示 部 分 图 像 ， 以 供 进 一 步 处 理 。 
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科学 家 克里斯托弗 : 科 赫 ， 他 们 一 起 发 表 了 一 系列 探索 “意识 的 神经 天 
FX” (neural correlates of consciousness， 人 简称 NCC， 负 责 产生 意识 觉 知 状 
态 的 大 脑 结构 和 神经 活动 ) 的 论文 。 凶 对 于 视觉 意识 ， 这 意味 着 要 发 
现 大 脑 不 同 部 位 神经 元 的 放电 特性 与 视觉 感知 之 间 的 相关 性 。 克 里 元 和 
科 赫 提出 了 假设 ， 认 为 我 们 并 不 知道 在 初级 视觉 皮层 中 发 生 了 什么 旧 | 
一 一 这 是 大 脑 皮 层 第 一 个 从 视网膜 接收 输入 的 区 域 ; 我 们 只 知道 在 视觉 
皮层 层级 结构 的 最 高 层 发 生 了 什么 〈 见 图 5-11) 。 这 种 假设 的 可 能 性 来 
自 对 双眼 竞争 的 研究 ， 即 对 两 只 眼睛 呈现 两 种 不 同 的 网 案 ， 例 如 对 一 只 
眼睛 显示 垂直 条 纹 而 对 另 一 只 眼睛 显示 水 平 条 纹 : 然而 ， 我 们 看 到 的 并 
非 是 两 幅 图 像 的 混合 图 像 一 一 事实 上 ， 视 觉 感知 每 隔 几 秒 束 会 在 不 同 图 
像 之 间 突 然 发 生 翻 转 。 初 级 视觉 皮层 中 对 每 只 眼睛 做 出 反应 的 是 不 同 的 
神经 元 ， 不 管 哪个 图 像 是 被 有 意识 地 感知 到 的 。 然 而 ， 在 视觉 的 较 高 层 
级 上 ， 许 多 神经 元 只 对 感知 到 的 图 像 产 生 响 应 。 因 此 ， 仪 因 一 个 神经 元 
对 感知 放电 ， 就 说 它 是 感知 的 神经 关联， 未 免 太 过 草率 。 显 然 ， 在 分 布 
于 视觉 层级 中 众多 互相 协调 工作 的 活跃 神经 元 中 ， 我 们 只 知道 其 中 的 一 


























些 子 集 表 征 了 什么 。 


视觉 感知 的 过 程 


2004 年 ， 加 州 大 学 洛杉矶 分 校医 学 中 心 的 科研 人 员 检 测 了 一 组 疗 病 
患者 的 脑 部 ， 试 图 探索 疗 病 发 作 的 病因 。 在 检测 过 程 中 ， 病 人 被 要 求 观 
察 一 系列 名 人 照片 。 植 入 大 脑 记忆 中 心 的 电极 可 以 记录 患者 对 照片 的 响 
应 脉冲 。 其 中 一 名 患者 大 脑 的 一 个 神经 元 对 几 幅 哈 莉 : 贝 瑞 的 照片 和 她 
的 名 字 〈 图 16-2) 做 出 了 强烈 的 反应 ， 但 对 比尔 :克林顿 、 朱 莉 娅 . 罗 伯 
茨 的 照片 或 其 他 名 人 的 名 字 却 无 动 于 囊 。 风 同时， 该 实验 也 发 现 了 对 
其 他 名 人 、 特 定 对 象 ， 以 及 悉尼 歌剧 院 等 建筑 物 能 做 出 反应 的 神经 元 。 
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图 16-2 哈 莉 。 贝 瑞 细胞 。 从 患者 的 海马 体 中 单个 神经 元 记录 下 的 对 照片 的 反应 。 每 张 照片 下 显 
示 了 来 自 6 次 单独 试验 的 放电 脉冲 〈 蓝 色 标 记 点 ) ， 以 及 平均 值 (直方 图 ) 。 (A) 哈 莉 。 贝 瑞 
的 照片 和 她 的 名 字 引 发 了 一 波 脉 冲 ; (B) 而 其 他 女 演员 的 照片 和 她 们 的 名 字 却 没有 。 哈 莉 。 贝 
瑞 出 演 了 2004 年 的 动作 超级 英雄 电影 《 猫 女 》 (图 3) 。 图 片 来 源 : A. D. Friederici and W. 
Singer, “Grounding Language Processing on Basic Neurophysiological 

Principles, " Trends in Cognitive Sciences 19, no. 6 (2015): 329 - 338， 图 1。 


由 加 州 大 学 洛杉矶 分 校 的 伊 扎 元 - 福 珊 德 (Itzhak Fried) 和 克 里 斯 托 
弗 ` 科 赫 领 导 的 研究 小 组 发 现 的 神经 元 ， 在 50 年 前 首次 可 以 记录 猫 和 猴 
子 大 脑 中 的 单个 神经 元 时 ， 就 已 经 被 预测 到 了 。 研 究 人 员 认 为 ， 在 大 脑 
皮层 视觉 区 域 的 层级 结构 中 ， 神 经 元 的 层级 越 高 ， 啊 应 特性 就 越 具 体 。 
很 有 可 能 的 情况 是 ， 顶 层 的 单个 神经 元 只 会 对 一 个 人 的 照片 产生 啊 应 。 





这 被 称 为 “祖母 细胞 假说 ”(grandmother cell hypothesis) ， 祖 母 细 胞 是 
一 个 假想 的 脑 中 神经 元 ， 可 以 让 你 认 出 你 的 祖母 。 


更 为 戏剧 性 的 是 这 样 一 组 实验 ， 给 患者 展示 结合 了 两 个 熟 习 个 体 昭 
片 的 融合 图 片 ， 并 要 求 他 们 想象 其 中 一 个 人 《偏好 个 体 ) 的 形象 ， 弱 化 
另 一 个 (竞争 个 体 )， 同 时 记录 仅 对 单一 熟人 照片 产生 响应 的 神经 元 的 
活动 。 尽 管 视觉 刺激 没有 改变 ， 但 受 试 者 能 够 增加 表征 “偏好 个 体 ”神经 
元 的 放电 速率 ， 同 时 降低 表征 “竞争 个 体 ” 神 经 元 的 放电 速率 。 然 后 ， 实 
验 者 通过 控制 融合 图 片 中 两 种 照片 的 比例 (根据 神经 元 的 放电 比例 ) 来 
闭合 环 路 ， 受 试 者 便 可 以 通过 想象 两 个 个 体面 孔 的 比例 四 来 控制 输 
入 。 该 实验 表明 ， 认 知 过 程 不 是 一 个 简单 的 被 动 过 程 ， 而 是 依赖 于 记忆 
和 内 部 注意 力 控制 的 主动 参与 。 

尽管 有 了 这 样 令 人 惊讶 的 证 据 ， 祖 母 细胞 假说 仍然 不 太 可 能 完全 解 
释 视 觉 感 知 的 过 程 。 根 据 该 假说 ， 当 细胞 处 于 活跃 状态 时 ， 你 会 感应 到 
你 的 祖母 ， 所 以 它 不 应 该 被 任何 其 他 的 刺激 产生 响应 。 测 试 中 只 有 几 百 
张 照 片 ， 所 以 我 们 的 确 不 知道 “ 哈 莉 : 贝 瑞 细 胞 "有 多 么 强 的 选择 性 。 其 
次 ， 电 极 碰巧 记录 到 大 脑 中 唯一 的 哈 莉 : 贝 瑞 神 经 元 的 可 能 性 很 低 ， 可 
能 性 更 大 的 情况 是 ， 大 脑 中 有 成 千 上 万 个 这 样 的 细胞 ， 肯 定 还 有 许多 对 
其 他 著名 面孔 、 你 认识 的 人 、 你 能 识别 的 每 一 个 对 象 做 出 响应 的 神经 元 
的 副本 。 尽 管 大 脑 中 有 数 十 亿 个 神经 元 ， 但 并 不 足以 给 人 们 认识 的 每 一 
个 对 象 和 名 称 分 配 一 个 大 型 的 专用 神经 元 群 组 。 最 后 ， 响 应 只 是 与 感官 
刺激 相关 ， 但 并 不 一 定 表明 其 中 存在 着 因果 关系 。 神 经 元 的 输出 ， 及 其 
对 下 游行 为 的 影响 (参考 第 5 章 介 绍 的 投射 场 ) 也 同样 重要 。 不 过 ， 响 
应 的 选择 性 是 惊人 的 。 记 录 开 始 之 前 ， 病 人 被 要 求 给 定 一 个 最 喜欢 的 名 
人 ， 所 以 可 能 哈 莉 : 贝 瑞 在 病人 的 脑 中 被 过 度 表 征 了 。 

在 小 鼠 、 猴 子 和 人 类 中 同时 记录 数 以 百 计 的 皮层 神经 元 ， 为 神经 元 
如 何 共同 感知 和 决策 提供 了 另 一 种 理论 。[ 引 在 猴子 的 记录 中 ， 刺 激 和 
依赖 任务 的 信号 广泛 分 布 于 大 量 神经 元 中 ， 每 一 个 神经 元 都 会 为 刺激 和 
任务 细节 特征 的 不 同 组 合 做 出 响应 。 国 不 久之 后 ， 我 们 将 有 可 能 记录 












































数 百 万 个 神经 元 并 操纵 它们 的 放电 速度 ， 区 分 不 同类 型 的 神经 元 和 它们 
彼此 相连 的 方式 。 这 可 能 会 引出 超越 祖母 细胞 的 理论 ， 让 我 们 能 够 更 深 
入 地 理解 神经 元 群体 的 活动 如 何 引发 思考 、 情 绪 、 计 划 和 决策 。 当 然 ， 
神经 元 表征 面孔 和 对 象 的 方式 可 能 不 止 一 种 。 随 着 新 的 记录 技术 的 出 

现 ， 我 们 应 该 很 快 就 会 知道 答案 。 了 0] 

自 20 世 纪 80 年 代 以 来 ， 我 们 已 经 在 经 过 训练 的 含有 一 层 隐藏 单元 的 
神经 网 络 模型 中 了 解 到 ， 并 且 最 近 在 深度 网 络 中 也 认识 到 ， 神 经 网 络 中 
每 个 输入 的 活动 模式 呈 高 度 分 散 性 分 布 ， 其 方式 在 性 质 上 类 似 于 皮层 中 
神经 元 群 组 的 各 种 响应 (图 9-2) 。 了 也 分 布 表征 可 以 用 来 识别 相同 对 
象 的 多 个 版 本 ， 而 且 针 对 同一 组 神经 元 ， 也 可 以 通过 对 它们 的 输出 添加 
不 同 的 权重 来 识别 许多 不 同 的 对 象 。 对 神经 网 络 中 的 单个 隐藏 单元 进行 
分 析 ， 就 像 神 经 生理 学 家 记录 视觉 皮层 中 的 神经 元 一 样 ， 有 时 会 发 现 一 
个 靠近 顶层 的 模拟 神经 元 对 其 中 一 个 对 象 产生 了 特定 的 偏好 。 但 是 ， 因 
为 剩 下 的 神经 元 携带 了 表征 对 象 的 宛 余 信号 ， 所 以 当 这 样 的 单元 被 切除 
时 ， 神 经 网 络 的 性 能 并 不 会 发 生 明 显 的 变化 。 神 经 网 络 在 受到 损害 的 情 
况 下 仍 能 保持 稳健 的 性 能 ， 是 网 络 与 大 脑 本 身 的 架构 与 数字 计算 机 的 架 
构 之 间 的 主要 区 别 。 


需要 多 少 皮 层 神 经 元 才能 区 分 例如 脸 部 之 类 的 许多 相似 对 象 呢 ? 从 
成 像 研究 中 ， 我 们 知道 人 脑 的 几 个 区 域 对 人 脸 能 够 做 出 反应 ， 有 些 区 域 
具有 高 度 的 选择 性 。 但 是 ， 在 这 些 区 域内 ， 任 何 单个 面孔 的 信息 都 广泛 
分 布 在 许多 神经 元 中 。 加 州 理 工学 院 的 曹 颖 (Doris Tsao) 在 猴子 的 大 
脑 皮 层 神经 元 中 ， 记 录 到 对 面部 的 选择 性 啊 应 ， 并 表明 可 以 通过 绪 合 ; 
自 200 个 面部 细胞 (所 有 面部 选择 性 神经 元 的 相对 较 小 的 子 集 ) 的 输入 
来 对 面部 特征 进行 重建 。 呈 2 




















视觉 感知 的 时 机 








视觉 意识 的 另 一 方面 ， 是 大 脑 努 力 记录 发 生 在 特定 时 间 的 事件 ， 例 
如 闪光 。 视 觉 皮层 中 神经 元 对 闪光 视觉 刺激 产生 响应 的 时 间 延 迟 从 25 毫 
秒 到 100 毫 秒 不 等 ， 这 些 延 迟 通常 发 生 在 皮层 同一 区 域内 。 尽 管 这 样 ， 
我 们 仍 可 以 确定 时 间 差 在 40 毫 秒 内 发 生 的 两 次 闪光 的 次 序 ， 以 及 时 间 差 
小 于 10 毫 秒 的 两 次 声音 的 次 序 。 让 问题 更 加 复杂 的 是 ， 视 网 膜 中 的 处 理 
也 需要 一 定 的 时 间 。 这 一 时 间 并 不 是 固定 的 ， 而 是 取决 于 闪光 的 强度 ， 
所 以 即便 微弱 闪光 和 强烈 闪光 同时 发 生 ， 微 弱 闪 光 中 来 自视 网 膜 的 首 个 
脉冲 的 到 达 时 间 与 强烈 闪光 相 比 ， 也 会 有 一 个 延迟 。 这 就 引出 了 一 个 问 
题 ， 即 为 什么 视觉 感知 似乎 具有 一 致 性 ， 虽 然 从 整个 皮层 活动 的 时 间 和 
空间 分 布 模式 来 看 并 不 明显 。 

当 我 们 进行 跨 模 态 Ccross-modaD 比较 时 ， 同 时 性 问题 变 得 更 加 令 
人 困惑 。 你 看 到 一 个 人 在 砍 树 ， 假 设 你 离 得 足够 近 ， 即 使 声速 比 光速 慢 
得 多 ， 你 也 可 以 同时 看 到 并 听 到 每 次 答 头 对 树木 的 砍 击 。 而 且 随 着 与 树 
的 距离 不 断 增 加 ， 同 时 性 的 幻觉 仍然 维持 着 ， 了 3 直到 视觉 和 听觉 信号 
到 达 你 的 大 脑 的 时 间 差 大 于 80 毫 秒 时 ， 我 们 就 不 再 认为 声音 与 砍 击 的 动 
作 同 时 发 生 〔( 此 时 的 距离 大 约 为 100 英 尺 ) 。 


探索 与 时 间 相 关 的 视觉 行为 的 研究 人 员 发 现 了 男 一 种 被 称 为 “办 光 
一 滞后 效应 ”(flash-lag effect) 的 现象 。 访 现象 可 以 表现 为 飞 过 头顶 的 
式 机 内 烁 的 尾灯 和 机 尾 看 起 来 不 太一 致 一 一 内 光 的 位 置 似 乎 落后 于 机 
尾 。 另 一 种 常见 的 现象 是 在 足球 比赛 中 ， 当 一 名 跑 动 中 的 运动 员 看 起 来 
像 在 足球 (内 光 〉 前 面 时 ， 这 可 能 会 引起 助理 裁判 员 的 越位 判 记 这 
名 助理 裁判 员 并 未 做 出 幻觉 补偿 4 。 这 一 现象 可 以 在 实验 室 中 通过 用 
视觉 刺激 〈 如 图 16-3 所 示 ) 来 进行 研究 。 在 闪光 湛 后 效应 中 ， 闪 光 和 位 
于 同一 位 置 的 移动 物体 之 间 似 乎 发 生 了 错位 。 

对 这 种 现象 存在 一 种 主流 的 解释 一 一 在 直 党 上 更 说 得 通 ， 而 且 有 一 
些 来 自 大 脑 实验 记录 的 证 据 一 一 是 大 脑 预 测 了 运动 点 将 在 短 时 间 之 后 出 
现在 哪个 位 置 。 但 是 感知 实验 已 经 表明 ， 这 并 不 能 解释 闪光 湛 后 效应 ， 
因为 闪光 时 间 引 起 的 感知 取决 于 内 光 后 80 坚 秒 内 发 生 的 事件 ， 而 不 是 内 






































光 之 前 发 生 的 事件 〈 先 前 发 生 的 事 会 被 大 脑 用 来 做 出 预测 ) 。 了 9 这 种 
对 闪光 滞后 效应 的 解释 ， 意 味 着 大 脑 是 “后 发 性 的 ”而 非 “ 预 测 性 的 "， 也 
就 是 说 ， 大 脑 不 断 修 改 历史 ， 使 有 意识 的 现在 与 未 来 保持 一 致 。 这 是 我 
们 的 大 脑 如 何 基于 嘲 杂 和 不 完整 的 数据 产生 似是而非 感觉 的 一 个 例子 ， 
这 一 现象 也 经 过 魔术 师 的 探索 ， 被 用 于 魔术 表演 中 。[6| 











图 16-3 WA exe. (上 图 ) 一 个 圆 环 从 左 向 右 移动 〈 黑 色 ) 。 当 它 通 过 视野 的 中 心 时 ， 灯 
光 会 短暂 闪烁 《黄色 ) . (下 图 ) 被 试 者 报告 ， 在 闪光 时 圆 环 似乎 偏 移 到 了 右 侧 。 图 片 来 源 : 
大 卫 。 伊 格 尔 受 。 


视觉 感知 的 部 位 


大 脑 成 像 可 以 在 我 们 感知 事物 时 为 我 们 提供 大 脑 活动 的 全 局 图 。 根 
据 实 验证 据 ， 研 究 人 员 提 出 了 一 个 非常 有 吸引 力 的 假设 ， 即 当 皮 层 前 部 
《这 部 分 对 计划 和 制定 决策 非常 重要 ) 的 大 脑 活动 达到 国 值 水 平 ， 并 开 
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的 启发 性 ， 但 这 些 观 察 结 果 并 不 具有 说 服 力 ， 因 为 它们 并 不 构成 因果 关 
系 ， 而 只 是 表明 了 相关 性 。 如 果 “ 意 识 的 神经 相关 ”是 意识 状态 的 原因 ， 
那么 应 该 可 以 通过 改变 “意识 的 神经 相关 ”来 改变 意识 状态 。 曹 蜂 在 她 
2017 年 的 实验 中 证 实 了 这 一 点 ， 通 过 刺激 猴子 的 视觉 皮层 中 的 脸 部 识别 
功能 区 ， 她 能 够 干扰 它们 对 脸 部 的 辨别 能 力 。 了 中 当 对 人 类 进行 类 似 的 
实验 时 ， 被 试 者 报告 说 ， 脸 部 看 起 来 好 像 正在 融化 。L9] 

最 近 ， 诸 如 光 遗 传 学 上 中等 新 技术 已 经 能 够 被 用 于 选择 性 地 操纵 神 
经 元 的 活动 ， 从 而 对 NCC 的 因果 关系 进行 测试 。 如 果 认 知 状态 与 高 度 分 
散 的 活动 模式 相对 应 ， 这 样 的 测试 难度 可 能 会 很 大 ， 但 原则 上 ， 这 种 方 
法 可 以 揭示 意识 中 的 感知 和 其 他 特征 是 如 何 形 成 的 。 了 [2 





























视觉 搜索 的 机 理 





视 党 搜索 任务 依赖 于 目下 而 上 的 感官 处 理 ， 以 及 目 上 而 下 由 期 望 驱 
动 的 注意 力 处 理 〈 图 16-4A) 。 这 两 种 类 型 的 处 理 在 大 脑 中 相互 交织 着 
进行 ， 难 以 区 分 。 但 最 近 ， 人 们 开发 了 一 种 新 闲 的 搜索 任务 来 尝试 将 它 
们 分 开 。 上 妆 参 与 者 坐 在 空白 的 屏幕 前 ， 他 们 的 任务 是 用 目光 扫 视 屏 
幕 ， 找 到 一 个 隐藏 目标 的 位 置 。 当 他 们 的 目光 停留 在 目标 附近 时 ， 会 听 
到 奖励 音 。 隐 藏 目 标的 位 置 在 每 次 试验 中 都 会 发 生变 化 ， 并 且 服 从 高 斯 
分 布 〈 一 种 钟 形 曲 线 ， 由 其 峰值 和 宽度 定义 ) ， 但 在 一 个 试验 环节 内 保 
持 不 变 ， 然 而 参与 者 并 不 了 解 这 一 信息 〈 图 16-4D) 。 


在 试验 环节 开始 时 ， 参 与 者 并 没有 任何 先 验 知识 来 指导 他 们 的 搜 
索 。 一 旦 获得 奖励 ， 他 们 就 可 以 使 用 该 反馈 来 协助 下 一 次 试验 。 随 着 试 
验 的 进行 ， 参 与 者 通过 制定 隐藏 目标 分 布 的 预期 ， 来 指导 未 来 的 搜索 ， 
以 提高 成 功率 。 经 过 大 约 十 几 次 的 试验 后 ， 参 与 者 的 视觉 注意 力 缩小 到 
了 目标 出 现 概 率 高 的 区 域 。 图 16-4D 显 示 了 在 所 有 参与 者 身上 出 现 的 这 








种 效应 的 特征 。 随 着实 验 不 断 推 进 ， 搜 索 区 域 的 范围 开始 大 幅 缩小 。 令 
人 惊讶 的 是 ， 尺 管 被 试 者 在 几 次 试验 后 的 第 一 次 扫 视 总 是 能 到 达 隐 藏 目 
标 分 布 的 中 心 ， 但 他 们 中 许多 人 并 没有 办 法 描述 出 是 如 何 做 到 这 一 后 
的 。 
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图 16-4 学 习 朝 哪里 看 。 (A) 有 经 验 的 行人 事先 知道 在 街道 场景 中 寻找 路 标 、 汽 车 和 人 行道 的 

位 置 ; (B) 在 一 片 草地 上 砚 食 的 鸭子 ; (0) 屏幕 的 表征 图 像 与 试验 期 间 学 习 的 隐藏 目标 分 布 

区 域 进行 的 登 加 ， 以 及 来 自 参与 者 M 的 三 次 试验 的 目光 轨迹 样本 。 每 个 试验 中 第 一 次 目光 停留 的 
区 域 用 黑色 记号 标记 。 最 终 获 得 奖励 的 注视 位 置 以 带 阴影 的 灰色 点 进行 标记 。 (D) 对 目光 注视 
过 的 屏幕 区 域 的 采样 ， 从 在 早期 武 验 中 遍布 了 整个 屏幕 〈 浅 灰色 圆圈 ; 前 五 个 试验 ) ， 缩 小 到 

接近 高 斯 整数 分 布 大 小 和 位 置 的 区 域 [ 正 方形 ， 颜 色 与 后 面试 验 C 中 给 出 的 概率 成 比例 (2268 
H; 试验 32-39) ] 。 图 片 来 源 : L. Chukoskie, J. Snider, M. C. Mozer, R. J. Krauzlis, 

and T. J.Sejnowski, “Learning Where to Look for a Hidden Target" , W1. 





这 些 实验 表明 ， 大 脑 无 意识 的 控制 是 由 经 验 引 导 的 。 通 过 消除 视觉 


输入 ， 可 以 独立 地 研究 无 意识 过 程 。 这 项 搜索 任务 涉及 的 大 脑 区 域 包 括 
视觉 皮层 和 上 压 ， 它 们 分 别 控制 着 视野 中 对 象 的 并 体形 貌 分 布 ， 以 及 分 
别 将 视线 指向 视觉 目标 ， 与 眼 动 系统 的 其 他 部 分 紧密 合作 。 学 习 过 程 也 
涉及 基诺 神经 节 ， 这 是 有 椎 动物 大 脑 的 一 个 重要 组 成 部 分 ， 能 通过 强化 
学 习 来 学 习 按 顺序 发 生 的 动作 。 上 3 引 预 期 和 收 到 的 奖励 之 间 的 差异 ， 表 
现 为 中 脑 部 位 的 多 巴 胺 神经 元 放电 频率 的 瞬时 增加 ， 从 而 能 够 调 市 突 触 
可 塑性 ， 并 在 无 意识 层面 影响 决策 和 计划 的 制定 (已 在 第 10 章 中 讨论 

M. 








创造 意识 比 理解 意识 更 容易 


在 去 世 之 前 ， 弗 朗 西 斯 : 克 里 克 还 邀请 我 到 他 家 中 讨论 屏 状 体 
(claustrum) ， 这 个 皮层 下 的 神秘 细胞 薄 层 接收 来 自 许多 皮层 区 域 的 投 
射 ， 然 后 再 反 向 投射 回去 。 尽 管 克 里 克 当 时 已 身 患 绝症 ， 但 仍然 专注 于 
完成 他 的 最 后 一 篇 论文 ， 即 屏 状 体 因 其 中 心地 位 而 负责 意识 统一 的 假 
说 。 只 有 少数 研究 人 员 曾 研究 过 屏 状 体 ， 他 几乎 给 他 们 中 的 每 个 人 都 打 
过 电话 ， 寻 求 进 一 步 的 信息 。 这 次 拜访 是 我 最 后 一 次 见 到 他 。 弗 庆 西 斯 
于 2004 年 7 月 28 日 去 世 时 ， 仍 然 在 努力 撰写 他 最 后 一 篇 论文 此 和 的 手 
稿 ， 试 图 完成 他 对 意识 起 源 的 研究 。 

在 他 和 詹姆斯- 沃 森 于 1953 年 发 现 DNA 结 构 的 50 年 后 ， 人 类 基因 组 
测序 的 项 目 完成 了 。 克 里 克 告 诉 我 ， 他 从 来 没有 想 过 人 类 能 够 完成 这 一 
壮举 。50 年 后 ， 我 们 距离 探 清 意识 问题 还 有 多 远 呢 ?届时 ， 我 们 将 拥有 
与 我 们 互动 的 机 器 ， 就 像 我 们 现在 通过 语音 、 手 势 和 面部 表情 与 他 人 互 
动 一 样 。 创 造 意识 要 比 完全 理解 它 来 得 容易 。 

我 怀疑 ， 我 们 是 否 可 以 通过 首先 了 解 无 意识 的 处 理 过 程 一 一 我 们 看 
到 、 折 到 和 行动 时 认为 理所当然 的 一 切 一 一 来 加 快 进度 。 我 们 已 经 在 理 
解 激 励 系统 方面 取得 了 进展 〈 激 励 系统 对 我 们 如 何 做 决定 产生 了 强烈 的 























a e remo 完 有 助 于 指导 我 们 在 现实 世界 中 搜寻 
BAL) 。 随 着 对 管理 感知 、 决 策 和 规划 的 大 脑 机 制 的 深入 了 解 ， 理 解 意 
识 这 Prate eme SAW PARIAR, RB 
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17 
进化 的 力量 


研究 生命 起 源 的 莱 斯 利 : 奥 格 尔 (Leslie Orgel, É17-1. Æ) 是 一 
位 毕业 于 牛 津 大 学 的 化 学 家 ， 他 是 我 在 索 尔 元 研究 所 多 年 的 同事 ， 也 是 
我 见 过 的 最 聪明 的 科学 家 之 一 。 每 周 五 的 教师 午餐 时 与 他 的 讨论 总 是 让 
我 意犹未尽 。 生 命 的 起 源 可 以 追溯 到 数 十 亿 年 前 ， 众 所 周知 ， 那 时 的 地 
球 与 今天 大 不 相同 ， 环 境 条 件 十 分 苛刻 ， 大 气 中 的 氧气 很 少 ， 并 不 适宜 
生命 存活 。 古 细菌 早 于 细菌 出 现在 地 球 上 ， 但 在 古 细 菌 之 前 出 现 的 又 是 
ANE? 我们 现在 已 经 知道 ,DNA 普遍 存 在 于 所 有 细胞 中 ， 那 在 DNA 
形成 之 前 了 驶 存在 的 遗传 物质 又 是 什么 呢 ? 1968 年 ， 莱 斯 利 : 奥 格 尔 和 弗 
朗 西 斯 : 克 里 克 推测 ， 由 细胞 中 的 DNA 衍 生 而 来 的 RNA 可 能 是 DNA 的 前 
身 ， 但 这 就 要 求 RNA 能 够 自我 复制 。 关 于 这 一 推测 的 证 据 ， 来 自 可 以 俊 
化 RNA 反 应 的 基于 RNA 酶 的 核 酶 出 (ribozyme) 。 今 天 该 领域 的 大 多 
数 研 究 人 员 都 认为 ， 所 有 生命 都 来 自 早期 的 *RNA 世 界 ”， 这 一 点 是 完 
有 可 能 的 。 但 RNA 又 是 从 哪里 来 的 呢 ? 遗憾 的 是 ， 我 们 并 没有 什么 证 据 
可 以 继续 追溯 下 去 。 
























图 17-1 1992F, R LET 2L PT 83 ATs AEE (E) FORMA RK E) 分 别 在 意识 
的 起 源 和 生命 的 起 源 领 域 进行 着 开拓 性 的 研究 。 图 片 来 源 : KR RAH 
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人 仍然 难以 接受 这 一 理论 。 许 多 年 后 ， 我 们 的 后 代 将 回顾 我 们 生活 的 这 
个 时 代 ， 并 认为 我 们 对 智能 的 直觉 ， 是 过 于 简化 了 的 ， 这 种 直觉 阻碍 了 
人 工 智 能 后 续 50 年 的 进步 。 正 如 奥 格 尔 的 第 二 定律 所 述 ， 进 化 比 你 陪 
HH, 

我 们 的 意识 觉 知 只 是 冰山 一 角 ， 我 们 大 脑 的 大 部 分 活动 依然 神秘 英 
测 ， 无 法 进行 自我 反思 。 我 们 用 ?注意 力 ? 和 “意图 "这些 词 来 描述 我 们 的 








行为 ， 但 这 些 都 是 含糊 的 概念 ， 隐 藏 了 大 脑 活动 过 程 的 内 在 复杂 性 。 基 
于 直觉 大 众 心 理学 的 人 工 智能 的 发 展 迟 迟 得 不 到 令 人 满意 的 成 果 。 我 们 
的 眼睛 能 看 到 东西 ， 但 没 人 知道 其 背后 的 原因 。* 我 思 故 我 在 "， 但 思考 
背后 的 机 制 仍 是 一 个 谜 。 大 自然 向 我 们 揭示 大 脑 如 何 运 转 ， 并 不 会 给 我 
们 带 来 生存 上 的 优势 。 奥 格 尔 的 第 二 定律 仍然 成 立 。 吕 | 

正如 第 2 章 所 指出 的 那样 ， 我 们 拥有 高 度 发 达 的 视觉 系统 ， 但 这 并 
不 能 让 我 们 成 为 视觉 领域 的 专家 。 团 许多 人 甚至 都 没有 意识 到 ， 我 们 
的 眼 部 存在 一 个 眼中 央 凹 ， 其 能 提供 的 清晰 视角 只 有 1 度 的 弧度 ， 相 当 
于 以 一 臂 为 半径 ， 拇 指 长 度 为 弧 长 所 对 应 的 角度 ， 另 外 ， 我 们 在 眼中 央 
凹 之 外 什么 都 看 不 到 ， 几 乎 相当 于 法 定 盲人 网 。 我 兽 经 向 我 的 母亲 指 
出 这 一 点 ， 她 说 她 不 相信 我 ， 因 为 她 前 后 左右 都 看 得 很 清楚 。 由 于 我 们 
可 以 迅速 重新 定位 视觉 目标 ， 所 以 产生 了 一 种 在 目光 所 及 之 处 都 能 看 得 
很 清楚 的 错觉 。 你 知道 当 你 凝视 一 个 目标 时 ， 目 光 会 以 每 秒 三 次 的 频率 
在 目标 上 游 移 吗 ? 余 光 Cperipheral vision) 可 能 具有 和 较 低 的 空间 分 辨 
率 ， 但 对 亮度 和 运动 的 变化 非常 敏感 。 在 视觉 皮层 中 ， 与 识别 目标 的 主 
要 回路 相 区 别 的 另 一 个 主要 回路 ， 就 负责 识别 视线 在 空间 中 的 移动 。 

当 计 算 机 视觉 领域 的 先驱 开始 设计 视觉 功能 时 ， 他 们 的 目标 是 从 图 
像 中 创建 出 一 个 完整 的 世界 内 部 模型 ， 而 这 个 目标 已 经 被 证 明 是 难以 实 
现 的 。 但 是 ， 一 个 完整 而 准确 的 模型 对 于 大 多 数 实际 目的 来 说 可 能 是 不 
必要 的 ， 而 且 考虑 到 目前 的 摄像 机 取样 率 很 低 ， 这 似乎 更 不 可 能 实现 。 

根据 心理 物理 学 、 生 理学 和 解剖 学 的 证 据 ， 帕 特 里 夏 . 丘 奇 兰 德 、 
神经 心理 学 家 拉 马 钱 德 兰 (OV. S. Ramachandran) 和 我 得 出 的 结论 是 ， 
大 脑 只 表征 世界 上 有 限 的 一 部 分 目标 ， 即 执行 手头 任务 所 需要 的 那 部 
分 。 葬 这 也 使 得 强化 学 习 更 容易 减少 所 需要 的 、 可 能 有 助 于 获得 奖励 
的 感官 输入 的 数量 。 视 觉 的 明显 模块 化 (与 其 他 感官 处 理 流 相 比 ， 视 觉 
信息 有 更 高 的 分 离 度 ) 也 是 一 种 错觉 。 视 觉 系统 集成 了 来 自 其 他 渠道 的 
信息 ， 包 括 来 自 奖励 系统 的 指示 场景 中 目标 价值 的 信号 。 机 动 系 统 通过 
积极 地 重新 定位 传感器 来 寻找 信息 ， 例 如 移动 目光 ， 以 及 在 某 些 物种 




















中 ， 通 过 移动 耳 条 来 收集 可 能 导致 奖励 行为 的 信息 。 

大 脑 通过 对 环境 的 逐步 适应 而 发 生 进 化 ， 大 自然 无 法 从 零 开 始 ， 而 
必须 通过 修改 各 个 零 部 件 来 维持 现 有 物种 的 生存 。 约 翰 : 奥 尔 曼 (John 
Allman) 在 他 的 著作 《进化 脑 》 (Evolving Brains) I61— E H ER T 3E 
城市 人 类 尺度 上 逐渐 发 生 的 进化 ， 并 回顾 了 一 次 他 去 圣迭戈 老 电 三 锅 炉 
房 的 经 历 。 他 注意 到 ， 在 一 组 真空 管 劳 边 有 一 排 排 复杂 的 小 型 气 送 管 ， 
旁边 是 不 同年 代 的 计算 机 控制 系统 。 由 于 该 电厂 需要 连续 供电 ， 因 此 无 
法 在 每 次 对 技术 进行 更 新 换代 时 ， 都 直接 关闭 旧 系 统 并 将 其 改装 为 新 系 
统 。 于 是 旧 的 控制 系统 就 被 留 在 了 原 位 ， 而 新 的 控制 系统 被 集成 到 了 其 
中 。 同 样 ， 随 着 大 脑 的 不 断 变 化 ， 大 上 自然 并 不 能 抛弃 旧 的 大 脑 系统 ， 而 
是 根据 当前 的 发 展 计 划 进 行 调整 ， 侦 尔 也 会 增加 一 层 新 的 控制 。 基 因 复 
制 ， 是 引入 能 够 变异 出 新 功能 的 基因 副本 的 最 佳 途径 。 全 基因 组 复制 的 
情况 曾经 也 发 生 过 ， 而 这 可 能 会 导致 一 个 全 新 物种 的 诞生 。 








认 知 科学 的 兴起 


20 世 纪 30 年 代 ， 研 究 学 习 行 为 的 心理 学 家 把 行为 看 作 将 感官 输入 转 
化 为 运动 输出 的 过 程 ， 并 自称 为 “行为 主义 者 ”>。 关 联 学 习 是 行为 主义 的 
研究 重点 ， 许 多 学 习 规 律 在 通过 用 不 同 的 奖励 机 制 训练 动物 时 被 陆续 发 
现 。 哈 佛 大 学 的 B，F， 斯 金 纳 是 这 一 领域 的 领导 者 ， 他 撰写 了 几 本 畅销 
书籍 来 解释 他 的 发 现 对 社会 造成 的 影响 。 内 当时 有 关 行 为 主义 的 大 众 
出 版 物 非 常 受 欢迎 。 

1971 年 ， 著 名 语言 学 家 诺 姆 : 齐 姆 斯 基 (17-2) 在 《纽约 书评 》 
(图 17-3) 上 发 表 了 一 篇 全 面 择 击 行为 主义 的 文章 ， 矛 头 直 指 斯 金 
纳 。[ 中 下 面 是 他 的 论点 中 关于 语言 方面 的 一 段 摘录 : 











图 17-2 19774F 6535-8 HMR. TINE (MART) LEE T x (Abs E ma 
斥 》。 乔 姆 斯 基 的 论文 对 一 代 认 知心 理学 家 产生 了 深远 的 影响 。 他 们 开始 将 符号 处 理 作 为 认 知 
的 概念 框架 ， 而 大 脑 发 育 和 学 习 在 认 知 和 智力 中 的 重要 作用 则 在 他 们 的 眼中 大 打折 扣 。 图 片 来 
i$: Hans Peters/Anefoto。 
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图 17-3 i538 + FABIA T IIIA A (I2 28 1E) P EEUU Ih IG GR. EM A LEB T 
一 代 科 学 家 ， 诱 导 他 们 放弃 了 对 行为 的 学 习 ， 并 采用 符号 处 理 作为 解释 认 知 的 方式 。 但 使 用 符 
号 方法 ， 人 工 智能 从 未 出 现 能 够 达到 认 知 水 平 的 表现 。 斯 金 纳 在 强化 学 习 领 域 引 领 着 正确 的 方 
向 ， [8p & 3| T HON A SSRIAEAMAISA RATED], Maeve. BHA 
Rm: 《纽约 书评 》。 


把 一 些 我 从 来 没有 听 过 或 说 过 的 英语 句子 ， 而 不 是 中 文句 子 说 


成 属于 我 的 “语录 ” (只 因为 我 说 前 者 的 “概率 ”更 大 ) ， 这 是 什 
么 意思 ? 斯 金 纳 主义 在 讨论 中 涉及 这 一 点 时 ， 一 直 诉 诸 “ 相 似 

性 ”或 “ 泛 化 ”， 但 始终 没有 精确 地 描述 新 句子 与 熟悉 的 例子 如 
何 “ 相 似 ”， 或 从 例子 中 如 何 “ 泛 化 ”的 方式 。 这 种 失败 的 原因 很 
简单 。 就 目前 所 了 解 的 信息 而 言 ， 相 关 属 性 只 能 用 描述 有 机 体内 部 
假定 状态 的 抽象 理论 (例如 语法 ) 来 表达 ， 而 这 种 理论 被 从 斯 金 纳 
的 “科学 理论 ”中 先 验 地 排除 了 。 由 此 导致 的 直接 后 果 就 是 ， 只 要 
讨论 涉及 事实 世界 ， 斯 金 纳 主义 就 必然 会 陷入 神秘 主义 〈 不 能 解释 
的 “相似 性 ”和 无 法 描述 的 “ 泛 化 ”) 。 尽 管 在 语言 中 情况 可 能 
为 清楚 ， 但 没有 理由 认为 ， 人 类 行为 的 其 他 方面 也 会 落 入 斯 金 纳 用 
先 验 限制 了 的 “科学 ”体系 之 中 。1?1 


以 今天 的 角度 ， 我 们 可 以 看 到 乔 姆 斯 基 明 白 了 问题 的 关键 ， 但 他 并 
不 了 解 学 习 的 力量 。 深 度 学 习 已 经 问 我 们 展示 了 ， 像 大 脑 本 刁 的 神经 网 
络 那样 ， 模 型 神经 网 络 能 够 做 到 被 乔 姆 斯 基 解 释 为 “神秘 主义 ”的 那 
种 “ 泛 化 ”， 并 且 可 以 经 过 训练 ， 选 择 性 地 识别 多 国语 言 并 进行 翻译 ， 为 
图 像 生 成 在 语法 上 无 可 挑剔 的 标题 。 最 具 讽 刺 意 味 的 是 ， 机 器 学 习 已 经 
解决 了 目 动 解析 语句 的 问题 ， 尽 管 计 算 语言 学 家 做 出 了 艰 兰 的 努力 ， 但 
乔 姆 斯 基 的 句法 “抽象 理论 ”从 来 没有 解答 过 这 个 问题 。 当 与 斯 金 纳 开创 
的 强化 学 习 结合 起 来 时 ， 机 器 学 习 就 可 以 解决 需要 做 出 一 系列 选择 以 实 
现 目标 的 复杂 问题 。 这 是 解决 问题 的 实质 ， 也 是 智能 的 基础 。 

齐 姆 斯 基 的 文章 充满 了 名 视 ， 其 影响 也 远 远 超过 了 对 斯 金 纳 的 皇 
击 : 它 挑战 了 ， 甚 至 驶 斥 了 将 学 习作 为 理解 认 知 的 一 种 方式 。 这 在 20 世 
纪 70 年 代 对 认 知 心理 学 产生 了 决定 性 的 影响 。 乔 姆 斯 基 所 持 观 点 的 核心 
在 于 ， 根 本 无 法 想象 (至 少 对 乔 姆 斯 基 而 言 》 关 联 式 学 习 能 够 产生 一 种 
像 语 言 那样 复杂 的 认 知 行为 。 但 请 注意 ， 这 个 论点 是 基于 无 知 一 一 仅 因 
为 世界 顶尖 的 语言 学 家 说 他 无 法 想象 人 条件 事 ， 并 不 能 否定 这 件 事 发 生 。 
但 乔 姆 斯 基 的 言 群 与 70 年 代 的 时 代 精 神 产 生 了 共鸣 ， 因 此 颇 受 退 捧 。 到 
了 了 20 世纪 80 年 代 ， 对 认 知 进行 符号 处 理 已 成 为 主流 方法 ， 并 为 一 个 名 














为 “ 认 知 科学 "的 新 领域 打下 了 基础 一 认 知 科学 是 认 知 心理 学 、 语 言 
学 、 百 学 和 计算 机 科学 的 混合 体 。 神 经 科学 则 像 是 认 知 科学 的 小 兄弟 ， 
在 20 世 纪 90 年 代 认 知 神经 科学 兴起 前 ， 一 直 或 多 或 少 地 受到 忽视 。 


不 能 把 语言 问题 只 留 给 语言 学 家 





此 后 ， 乔 姆 斯 基 还 多 次 使 用 了 同样 的 修辞 论证 ， 其 中 最 著名 的 是 他 
基于 “刺激 匮乏 ”(poverty of the stimulus) 对 先天 语言 能 力 的 论证 ，L0l 
其 中 断言 婴儿 在 听觉 上 获取 不 到 足够 的 语言 范例 来 学 习 名 法 的 规则 。 但 
是 ， 屡 儿 并 不 是 一 台 从 外 界 得 到 一 串 无 形 符号 的 计算 机 。 事 实 上 ， 一 个 
砚 儿 沉浸 在 一 个 充满 丰富 感官 体验 的 世界 中 ， 并 会 以 怀 人 的 速度 了 解 世 
界 的 本 质 。 了 于 这 个 世界 充满 了 与 声音 有 关 、 意 义 非凡 的 体验 ， 这 些 体 
验 始 于 子宫 ， 是 一 种 无 监督 学 习 。 在 这 一 基础 上 ， 语 言 开 始 形成 ， 首 先 
是 嘱 嘱 呀 呀 ， 然 后 是 单个 词汇 ， 以 及 后 来 语法 正确 的 单词 序列 。 先 天 习 
得 的 并 不 是 语法 ， 而 是 能 够 从 经 验 中 学 习 语 言 ， 表 现 出 在 丰富 的 认 知 语 
境 中 吸收 话语 的 高 阶 统 计 特性 的 能 

令 乔 姆 斯 基 无 法 想象 的 是 ， 如 果 加 上 对 环境 的 深度 学 习 和 用 毕生 的 
经 验 魔 炼 出 的 深度 学 习 的 代价 函数 ， 像 强化 学 习 这 样 的 弱 学 习 系统 也 可 
以 产生 认 知 行为 ， 包 括 语 言 。 在 20 世 纪 80 年 代 ， 这 一 点 对 我 来 说 并 不 明 
显 ， 人 尽管 我 应 该 认识 到 ， 如 果 像 话语 网 络 这 样 的 小 型 网 络 可 以 处 理 身 语 
发 首 ， 那 么 很 可 能 在 对 言语 的 表征 中 ， 学 习 网 络 一 一 无 论 是 模型 网 络 还 
是 皮层 网 络 一 一 都 对 语言 有 着 天 然 的 杀 和 力 。 乔 姆 斯 基 的 立场 是 基于 想 
象 力 的 匮乏 ， 但 从 逻辑 来 说 符合 了 奥 格 尔 的 第 二 定律 : 进化 比 你 聪明 ， 
而 这 个 “你 ”也 包括 像 乔 姆 斯 基 这 样 的 专家 。 事 实 上 ， 当 一 位 专家 告诉 你 
上 自然界 的 某 些 事情 是 不 可 能 的 时 候 ， 你 应 该 保持 谨慎 一 一 不 管 这 个 论证 
有 多 么 合理 或 者 令 人 信服 。 


在 20 世 纪 后 半 叶 ， 乔 姆 斯 基 对 语序 和 人 句法 的 强调 成 为 语言 学 的 主导 






































方式 。 但 即使 是 一 个 “ 词 袋 ”(bag of words) 模型 的 神经 网 络 ， 抛 弃 单 词 
顺序 ， 也 能 在 判定 文章 〈 如 体育 报道 或 政论 ) 的 主题 方面 表现 出 色 ， 并 
且 通 过 参考 直接 相 邻 的 文字 关系 ， 性 能 还 可 以 得 到 进一步 的 提升 。 我 们 
通过 深度 学 习 获得 的 经 验 是 ， 即 使 词 序 包含 一 些 信 息 ， 但 基于 单词 含义 
及 词 间 关系 的 语义 更 重要 。 词 汇 在 大 脑 中 被 丰富 的 内 部 结构 所 表征 。 随 
着 我 们 对 在 深度 学 习 网 络 中 词汇 如 何 表 达 语 义 有 了 更 深入 的 了 解 ， 我 们 
可 能 会 开启 一 门 新 的 语言 学 。 就 像 大 自然 没有 理由 向 我 们 揭示 视觉 的 工 
作 原 理 一 样 ， 也 没有 理由 认为 ， 我 们 对 语言 工作 原理 的 直觉 会 更 好 。 

我 们 来 考虑 一 下 ， 在 对 自然 语言 任务 进行 训练 的 模型 网 络 中 ， 单 词 
的 内 部 结构 可 能 是 什么 样子 。 虽 然 网 络 可 能 是 针对 特定 问题 进行 训练 ， 
但 网 络 表征 输入 的 方式 可 被 用 于 解决 其 他 问题 。 一 个 很 好 的 例子 就 是 训 
练 一 个 网 络 ， 来 预测 句子 中 的 下 一 个 单词 。 在 经 过 训练 的 网 络 中 ， 单 词 
的 表征 方式 具有 内 部 结构 (以 网 络 中 所 有 单元 的 活动 模式 的 形式 ) ， 可 
以 用 来 在 单词 对 之 间 进 行 类 比 。[L3 例 如 ， 当 这 些 活 动 模式 被 投影 到 一 
个 平面 时 ， 连 接 国家 和 首都 的 矢量 都 是 一 样 的 。 在 没有 任何 关于 首都 城 
市 意味 着 什么 的 监督 信息 的 前 提 下 (图 17-4) ， 网 络 学 会 了 自动 组 织 概 
念 并 隐 式 地 学 习 它 们 之 间 的 关系 ， 这 就 表明 ， 可 以 使 用 无 监督 学 习 从 文 
本 中 提取 国家 和 首都 的 语义 。 
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图 17-4 网 络 中 单词 的 内 部 表征 被 用 来 训练 预测 句子 中 的 下 一 个 单词 。 每 个 单词 都 是 网 络 活动 的 
矢量 ， 可 以 如 上 所 示 投 影 到 二 维 平面 上 。 箭 头 将 国家 连接 到 它们 的 首都 。 由 于 所 有 这 些 箭头 彼 
此 平行 并 且 长 度 大 臻 相同， 所 以 单词 对 也 以 类 似 的 方式 表示 。 例 如 ， 如 果 你 想 查 找 不 同 国家 的 
首都 ， 可 以 将 此 箭头 添加 到 该 国家 的 矢量 中 ， 并 检索 出 其 首都 的 矢量 。 资 料 来 源 : T. 

Mikolov, l. Sutskever, K. Chen, G. Corrado and J. Dean, “Distributed 


Representations of Words and Phrases and Their Compositionality" , A2. ELA 7$: 
AX * i HL, 


我 在 麻 省 理工 学 院 的 一 次 演讲 中 ， 开 门 见 山地 说 道 : “语言 太 重要 
了 ， 不 能 只 留 给 语言 学 家 去 研究 。”[ 引 我 的 意思 是 ， 我 们 不 应 该 只 停 
留 在 行为 层面 描述 语言 。 我 们 应 该 理解 语言 背后 的 生物 学 原理 和 潜在 的 
生物 学 机 制 ， 以 及 智 人 的 语言 能 力 是 如 何 演变 的 。 使 用 无 创 大 脑 成 像 ， 
以 及 直接 对 疗 痛 患者 的 大 脑 活动 进行 记录 ， 已 经 使 这 一 想法 成 为 可 能 。 
对 大 脑 研 究 来 说 ， 同 等 重要 的 是 通过 比较 人 类 大 脑 与 黑猩猩 和 其 他 高 等 
灵 长 类 大 脑 的 差异 ， 来 理解 语言 是 如 何 形成 的 ， 相 比 在 早期 经 过 更 加 漫 
长 的 过 程 获 得 感觉 运动 技能 ， 使 用 语言 的 能 力 发 生 在 进化 的 某 个 瞬间 。 
强大 的 基因 工具 将 使 我 们 能 够 剖析 大 脑 的 发 育 ， 并 理解 进化 如 何 通过 在 























发 育 中 不 断 修正 来 形成 我 们 先天 的 语言 学 习 能 

语言 可 以 通过 诉 诸 似是而非 和 源 目 无 知 的 争论 被 用 来 进行 误导 和 控 
， 这 种 无 知 会 产生 远 远 超出 科学 范畴 的 负面 影响 。 历 史上 充斥 着 烛 动 
， 当 他 们 在 想象 力 方面 的 苇 乏 被 骏 露 出 来 ， 最 终 就 会 难 逃 被 抛弃 的 命 
。 圣 运 的 是 ， 大 脑 存在 的 时 间 比 语言 要 长 很 多 ， 如 果 我 们 依赖 于 早 在 
言 出 现 之 前 就 进化 出 来 的 那 部 分 大 脑 ， 肯 定 会 从 中 受益 。[4 
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难 预 测 的 行为 规律 


回想 起 来 ， 行 为 主义 和 认 知 科学 在 20 世 纪 对 行为 的 研究 采取 了 相反 
的 方式 ， 但 都 犯 了 同样 的 错误 ， 即 忽视 了 大 脑 的 重要 性 。 行 为 主义 者 不 
希望 被 反思 误导 ， 所 以 他 们 认为 不 去 大 脑 中 寻求 指导 ， 实 际 上 是 一 种 荣 
耀 。 他 们 认为 ， 通 过 仔细 控制 黑匣子 的 输入 和 输出 ， 可 以 发 现任 何 偶然 
事件 的 行为 规律 。“ 功 能 主义 ”的 认 知 科学 家 拒 不 认可 行为 主义 ， 并 且 相 
信 他 们 可 以 发 现 思维 的 内 在 表征 方式 ， 但 是 因为 他 们 也 相信 大 脑 如 何 实 
现 这 些 表 征 的 细节 无 关 紧要 ， 呈 站 因此 他 们 所 开发 的 内 部 表征 是 基于 不 
可 靠 的 直觉 和 大 众 心 理学 。 大 自然 比 这 两 派 都 要 聪明 。 


黑匣子 的 内 部 状态 非常 复杂 ， 因 此 要 发 现 内 部 表征 和 行为 规律 非常 
困难 。 如 果 有 一 天 我 们 确实 发 现 了 行为 规律 ， 很 可 能 会 对 它们 进行 功能 
性 的 描述 ， 尽 管 这 个 描述 可 能 和 量子 力学 对 于 物理 学 家 一 样 ， 是 违反 直 
党 的 。 想 要 发 现行 为 规律 ， 我 们 需要 尽 可 能 依赖 大 脑 。 深 度 学 习 网 络 是 
通过 关注 大 脑 结构 的 茶 些 一 般 特 征 ， 以 及 大 脑 功能 的 一 般 原 理 来 取得 进 
步 的 范例 。 我 坚 不 怀 疑 强 硬 的 功能 主义 者 会 提出 抗议 ， 但 我 们 需要 前 
进 ， 而 不 是 墨守成规 。 在 此 过 程 的 每 一 步 中 ， 添 加 来 自 大 脑 染 构 的 一 系 
列 新 特征 都 提升 了 深度 学 习 网 络 的 功能 : 皮层 区 域 的 层次 结构 ， 深 度 学 
习 与 强化 学 习 在 大 脑 中 的 耦合 ， 循 环 挛 层 网 络 中 的 工作 记忆 ， 以 及 关于 
事实 和 事件 的 长 期 记忆 ， 等 等 。 我 们 还 可 以 从 更 多 的 大 脑 计 算 原理 中 学 
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研究 知觉 、 记 忆 和 决策 的 神经 科学 家 通常 在 他 们 的 实验 中 使 用 基于 
试验 的 任务 ， 在 这 些 任 务 中 ， 实 验 动物 接受 训练 以 对 刺激 产生 期 望 的 反 
应 。 经 过 数 月 的 训练 后 ， 这 些 刺激 驱动 的 反应 变 成 了 反射 ， 而 不 是 反 
思 ， 这 可 以 揭示 习惯 行为 ， 而 不 是 认 知 行为 背后 的 机 制 。 思 考 不 是 一 种 
反射 ， 它 可 以 在 没有 任何 感官 刺激 的 情况 下 发 生 ， 但 传统 的 实验 设计 方 
式 忽略 了 在 没有 感官 输入 的 情况 下 进行 的 自发 活动 。 我 们 需要 新 的 方法 
来 研究 与 感官 和 运动 无 关 的 内 部 活动 ， 其 中 包括 有 意识 思考 和 无 意识 处 
理 。 出 现 了 这 样 一 种 新 的 情况 : 大 脑 成 像 实验 揭示 了 当 人 被 放 入 扫描 仪 
并 被 要 求 “休息 ”时 ， 所 自发 产生 的 静 息 状态 。 当 无 所 事 事 时 ， 意 识 则 表 
现 为 一 种 球 忽 不 定 的 模式 ， 这 是 一 种 我 们 可 以 观察 到 但 尚未 理解 的 大 脑 
活动 。 

脑 成 像 ， 尤 其 是 无 创 性 功能 磁 共 振 成 像 (fMRI) 开辟 了 研究 社会 
互动 和 决策 制定 的 新 途径 ， 形 成 了 一 个 名 为 “神经 经 济 学 ”的 新 领 
域 。 卫 匀 因 为 人 类 并 不 是 经 典 经 济 学 中 经 常 假设 的 理性 行为 者 ， 我 们 的 
判断 和 动机 来 自 复杂 的 大 脑 内 部 状态 ， 因 此 我 们 需要 根据 实际 而 非 理 想 
化 的 人 类 判断 和 动机 ， 来 建立 一 个 行为 经 济 学 。 了 8 正如 第 10 章 所 述 ， 
多 巴 胺 神经 元 通过 表现 奖励 预测 误差 ， 对 动机 产生 了 强大 的 影响 。 针 对 
社交 互动 的 大 脑 成 像 ， 能 够 以 纯粹 的 行为 实验 无 法 实现 的 方式 探究 人 类 
的 动机 。 我 们 的 目标 是 用 基于 先前 经 验 的 概率 决策 理论 ， 来 取代 基于 好 
辑 的 理性 决策 理论 。 






































神经 网 络 的 寡 冬 


神经 网 络 的 早期 历史 ， 其 实 就 是 一 个 不 大 但 左 具 影响 力 的 团队 ， 如 
何 能 够 将 研究 方向 带 离 正轨 的 案例 。 在 《感知 器 》 这 本 书 尾声 部 分 ， 马 
文明 斯 基 和 西 摩尔 ' 帕 普 特 〈 图 17-5) 表达 了 这 样 的 观点 : 感知 器 学 习 





算法 并 不 能 扩展 到 多 层 感知 器 : 
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图 17-5 8& 464 T 19714E Z5 X. e AMARRE R - Mea HAT (RMSE) — BETA. Kv 
对 简单 网 络 出 色 的 数学 分 析 ， 让 一 代 追 求 基于 多 层 网 络 学 习 的 人 工 智 能 方法 的 研究 人 员 ， 感 到 
RRM. BHR: 麻 省 理工 学 院 。 

这 个 扩展 问题 不 仅仅 是 技术 问题 ， 也 是 战略 问题 。 尽 管 〈 黄 至 
XB) 它 有 着 严重 的 局 限 性 ， 感 知 器 已 经 显示 出 了 研究 价值 。 它 
具有 很 多 引 人 注 目的 特点 : 线性 ， 有 趣 的 学 习 理 论 ， 清 晰 简单 的 范 
例 适 用 于 并 行 计算 。 但 没有 理由 认为 ， 这 些 特点 中 的 任何 一 种 会 延 
续 到 多 层次 版 本 。 尽 管 如 此 ， 我 们 仍然 认为 这 是 一 个 重要 的 研究 课 
AR, VAI (AGA) 我 们 对 “其 扩展 是 无 所 作为 的 ”的 直觉 判 
断 。 我 们 也 许 会 发 现 一 些 强 大 的 收敛 定理 ， 或 者 相反 地 ， 我 们 会 找 
到 无 法 为 多 层 机 器 研发 有 趣 的 “学 习 理 论 ” 的 原因 。 上 [191 


毫 无 疑问 ， 其 结果 导致 了 网 络 学 习 领 域 的 寸 草 不 生 。 在 明 斯 基 和 帕 
普 特 的 书 中 ， 这 种 上 毫 无 根据 的 “直觉 *”( 除 此 之 外 ， 这 倒是 一 本 好 书 ) 对 
神经 网 络 学 习 的 发 展 产 生 了 令 人 不 寒 而 标的 影响 ， 让 一 代 人 的 研究 就 此 
停滞 不 前 。 尽 管 我 个 人 从 这 种 停 沾 中 受益 ， 因 为 它 使 我 的 事业 成 为 可 
能 。 但 是 我 有 机 会 在 明 斯 基 职 业 生 涯 后 期 ， 站 在 幕后 洞察 一 切 。 

我 被 邀请 参加 2006 年 达 特 芭 斯 人 工 智 能 会 议 “AI@50”， 回 顾 1956 年 

















TEXTE AST JT BERS A ne BEE, JPG SI BER 
AR. LO 19564A B ff d pep RO rir TRA: 约翰 ` 麦 
F (John McCarthy, HH AE), HALARE ORAL 
院 ) ， 特 伦 碍 德 .摩尔 〈Trenchard More, IBM) ， 雷 :所 罗 门 诡 夫 (Ray 
Solomonoff， 伦 敦 大 学 ) 和 奥利弗 : 赛 弗 里 奇 (Oliver Selfridge, RAM 
工学 院 ) 。 无 论 从 科学 还 是 社交 的 角度 来 说， 这 都 是 一 次 引人入胜 的 会 
议 。 

卡 内 基 - 梅 隆 大 学 的 金 出 武 雄 (Takeo Kanade) 在 他 的 演讲 “人 工 吞 
能 视野 : 进步 与 非 进步 ”(Artificial Intelligence Vision: Progress and Non- 
Progress) 中 指出 ， 以 今天 的 标准 来 看 ，20 世 纪 60 年 代 的 计算 机 内 存 很 
小 ， 并 且 一 次 只 能 保存 一 张 网 像 。 金 出 武 雄 在 他 1974 年 的 博士 论文 中 指 
出 ， 尺 绾 他 的 程序 可 以 在 一 个 图 像 中 找到 一 辆 坦克 ,但 是 在 其 他 图 像 
中 ， 如 果 坦 元 处 于 不 同 的 位 置 并 且 光 照 不 同 ， 则 很 难得 到 同样 的 结 
但 是 ， 当 他 早期 的 学 生 毕 业 时 ， 因 为 电脑 更 强大 ， 他 们 设计 的 程序 可 以 
在 更 普遍 的 条 件 下 识别 坦克 。 今 天 ， 他 学 生 的 程序 可 以 识别 任何 图 像 中 
的 坦 元 。 不 同 之 处 在 于 ,今天 我 们 可 以 访问 数 以 百 万 计 的 图 像 ， 可 以 对 
各 种 姿态 和 光照 条 件 进行 取样 ， 而 且 计算 机 的 功能 更 是 强大 了 数 百 万 
倍 。 

抹 省 理工 学 院 的 罗 德 尼 . 布 重 克 斯 在 他 的 题 为 “智能 与 号 
体 ”(Intelligence and Bodies) 的 演讲 中 ， 讲 述 了 他 在 建造 候 行 和 漫步 机 
器 人 方面 的 经 验 。 智 能 在 大 脑 中 进化 以 控制 运动 ， 并 且 吴 体 逐 渐 发 展 为 
通过 智能 与 世界 互动 。 布 鲁 殉 斯 放弃 了 机 器 人 专家 使 用 的 传统 控制 器 ， 
并 将 行为 ， 而 非 计 算 ， 作 为 设计 机 器 人 的 参考 。 随 着 我 们 对 如 何 搭 建 机 
器 人 的 了 解 更 加 深入 ， 会 更 清楚 地 认识 到 号 体 是 意识 的 一 部 分 。 

在 “为 什么 自然 语言 处 理 现在 是 统计 自然 语言 处 理 ”(Why Natural 
Language Processing is Now Statistical Natural Language Processing) 的 演 
讲 中 ， 欧 仁 : 查 尼 阿 克 (Eugene Chamiak) 解释 说 ， 语 法 的 基本 作用 是 
在 句子 中 标记 词类 。 人 类 接受 这 方面 训练 后 ， 会 比 现 有 的 解析 程序 做 得 






































更 好 。 计 算 语 言 学 领域 最 初试 图 应 用 话 姆 : 乔 姆 斯 基 在 20 世 纪 80 年 代 首 
创 的 生成 语法 (generative grammar) 方法 ， 但 结果 令 人 失望 。 最 终 被 证 
明 可 行 的 办 法 是 ， 聘 请 布朗 大 学 的 学 生 为 《华尔街 日 报 》 上 于 篇 文章 的 
词类 进行 手写 标注 ， 然 后 应 用 统计 技术 ， 根 据 相 邻 单词 来 确定 特定 单词 
的 词类 。 这 一 过 程 需要 大 量 的 例子 ， 因 为 大 多 数 单词 有 多 重 含义 ， 每 个 
单词 对 应 许多 不 同 的 上 下 文 。 目 前 ， 在 句子 中 对 词类 进行 自动 标记 ， 已 
经 成 为 可 以 利用 机 器 学 习 来 解决 的 问题 。 


这 些 成 功 的 故事 有 一 个 共同 的 轨迹 。 过 去 ， 电 脑 速 度 很 慢 ， 只 能 用 
少数 几 个 参数 来 探索 一 个 玩具 模型 。 但 是 这 些 玩具 模型 无 法 适用 于 现实 
世界 的 数据 。 当 拥有 了 大 量 数据 ， 并 且 计 算 机 速度 也 更 快 时 ， 融 可 以 创 
建 更 复杂 的 统计 模型 ， 并 提取 更 多 特征 和 特征 之 间 的 关系 。 深 度 学 习 使 
这 一 过 程 实 现 了 目 动 化 。 深 度 学 习 可 以 从 非常 大 的 数据 集中 提取 特征 ， 
而 不 是 让 领域 专家 为 每 个 应 用 程序 手动 创建 这 些 特征 。 随 着 计算 取代 了 
区 动力 并 不 断 变 得 更 廉价 ， 计 算 机 将 能 够 执行 更 多 劳动 密集 型 的 认 知 任 


务 。 






































在 会 议 结束 时 的 总 结 性 发 言 中 ， 马 文 : 明 斯 基 一 开始 就 表示 ， 他 对 
演讲 和 AI 的 研究 方 同 感到 失望 。 他 解释 道 :“ 你 们 不 是 在 解决 通用 的 知 
能 问题 。 你 们 只 是 在 解决 具体 的 应 用 问题 。” 这 次 会 议 应 该 是 对 我 们 所 
取得 的 进展 的 一 次 庆祝 ， 但 是 却 被 他 的 指 贡 打击 了 。 我 做 的 演讲 是 关于 
强化 学 习 的 进展 ， 并 展示 了 TD-Gammon 通 过 训练 ， 能 在 西洋 双 陆 棋 中 
表现 出 冠军 水 平 的 显著 成 果 。 不 过 我 的 演讲 并 没有 给 他 留 下 深刻 的 印 
象 ， 他 始终 认为 ， 那 只 是 一 个 游戏 轻 了 。 

明 斯 基 的 “通用 的 智能 ”意味 着 什么 呢 ? 他 在 其 著作 《心智 社会 》 
(The Society of Mind) 上 2 寺中 提 到 ， 前 提 是 通用 的 智能 来 自 简单 媒介 之 
间 的 相互 作用 。 明 斯 基 曾 经 说 过 ， 有 关 他 的 理论 的 最 大 想法 ， 是 来 源 于 
试图 创建 一 台 使 用 机 器 人 手 辟 、 摄 像 机 和 计算 机 的 机 器 ， 可 以 用 儿童 的 
积木 构建 一 个 结构 (图 2_-1) 。 革 这 听 起 来 很 像 一 个 应 用 。 一 个 具体 
的 应 用 会 迫使 你 专注 于 并 深入 到 最 底层 问题 ， 而 抽象 理论 化 的 方法 则 不 
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我 们 的 大 脑 不 只 是 凭空 产生 抽象 的 想法 。 它 们 与 我 们 号 体 的 所 有 部 
位 密切 相连 ， 而 我 们 的 身体 又 通过 我 们 的 感官 输入 和 运动 效应 器 与 外 界 
密切 相连 。 生 物 智能 因此 而 具体 化 。 更 重要 的 是 ， 我 们 的 大 脑 在 与 外 界 
互动 的 同时 ， 经 历 了 一 个 漫长 的 成 熟 过 程 。 学 习 古 一 个 与 发 育 同时 进行 
的 过 程 ， 并 且 在 我 们 达到 成 年 后 仍然 会 持续 很 长 一 段 时 间 。 因 此 ， 学 习 
对 于 通用 乔 能 的 发 展 至 关 重 要 。 有 趣 的 是 ， 人 工 智 能 中 最 难 解决 的 问题 
之 一 是 前 识 ， 显 然 这 是 儿童 并 不 具备 的 ， 只 有 在 长 期 与 外 界 接触 后 ， 大 
多 数 成 人 才 会 获得 常识 。 人 工 智能 中 经 第 忽略 的 情绪 和 通 感 也 是 智能 的 
一 个 重要 方面 。 纺 站 情绪 是 个 整体 信和 号， 可 以 使 大 脑 为 不 能 由 局 部 大 脑 
状态 决定 的 行动 做 好 准备 。 

AI@50 的 最 后 一 天 举行 了 宴会 。 在 晚餐 结束 时 ，1956 年 达 特 茅 斯 人 
工 智 能 夏季 研究 项 目的 5 名 回归 成 员 简要 介绍 了 会 议和 人 工 智 能 的 未 
来 。 在 问答 期 间 ， 我 站 起 来 ， 转 癌 明 斯 基 说 道 :;“ 神 经 网 络 社区 有 一 种 
看 法 : 你 是 上 世纪 70 年 代 需 要 为 神经 网 络 铺 条 负 员 的 大 购 。 你 是 大 购 
吗 ? ” 明 斯 基 发 起 了 一 场 关 于 我 们 如 何不 理解 我 们 网 络 的 数学 局 限 性 的 
长 篇 大 论 。 我 打 断 了 他 :“ 明 斯 基 博 士 ， 我 问 的 是 一 个 是 或 否 的 问题 。 
你 是 ， 还 是 不 是 ? "MRS AZ, PA: “SEM, REEL” 


1958 年 ， 弗 兰 克 : 罗 和 森 布 拉 特 制造 了 一 个 模拟 计算 机 ， 被 设计 用 来 
模拟 感知 器 ， 因 为 当时 数字 计算 机 在 模拟 计算 密集 度 高 的 网 络 模型 时 速 
度 很 慢 。 到 了 20 世 纪 80 年 代 ， 计 算 机 的 计算 功能 大 大 提升 ， 让 我 们 能 够 
通过 模拟 小 型 网 络 来 探索 学 习 算 法 。 但 直到 2010 年 ， 才 有 足够 的 计算 机 
能 力 将 网 络 规模 扩大 到 可 以 解决 实际 问题 的 程度 。 

明 斯 基 在 1954 年 从 普林斯顿 大 学 获得 数学 博士 学 位 ， 他 的 论文 是 关 
于 用 神经 网 络 进行 计算 的 理论 和 实验 研究 。 他 甚至 用 电子 部 件 构建 出 了 
小 型 网 络 ， 以 了 解 它 的 行为 。 当 我 还 是 普林斯顿 大 学 物理 系 的 研究 生 


























时 ， 就 听 说 数学 系 里 没有 人 有 资格 评审 他 的 论文 上 ， 所 以 人 们 把 它 发 
给 了 普林斯顿 高 等 研究 院 的 数学 家 们 ， 据 说 他 们 能 与 上 帝 交 谈 。 回 复 的 
评论 是 , “如 果 这 在 今天 不 是 数学 ， 未 来 总 有 一 天 会 是 。” 这 足以 为 明 斯 
基 赢得 他 的 博士 学 位 。 而 神经 网 络 确实 引发 了 一 类 新 的 数学 函数 ， 这 些 
函数 激发 了 新 的 研究 ， 并 正在 成 为 数学 的 一 个 新 分 支 。 年 轻 的 明 斯 基 超 
越 了 他 的 时 代 。 
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马 文 ' 明 斯 基于 2016 年 去 世 ， 他 坚信 神经 网 络 无 法 实现 通用 的 人 工 
智能 。 斯 带 芬 " 沃 尔 夫 勒 姆 在 一 篇 关于 他 与 明 斯 基 友 谊 的 文章 中 关切 地 
写 道 : “虽然 我 认为 没有 人 能 在 当时 就 预见 到 ， 但 我 们 现在 知道 ， 马 文 
早 在 1951 年 就 已 经 在 研究 的 神经 网 络 ， 在 朝 痢 他 所 和 希望 的 那 种 令 人 叹 为 
观 止 的 AI 能 力 发 展 的 正确 道路 上 前 进 。 可 异 这 个 过 程 太 久 了 ， 马 文 几 乎 
没 能 看 到 它 的 实现 。” 上 | 


明 斯 基 去 世 后 不 久 ，DeepMind 的 研究 人 员 艾 历 克 斯 :格雷 夫 斯 
(Alex Graves) 和 格雷 格 : 韦 恩 (Greg Wayne) 通过 添加 动态 外 部 存储 
器 ， 实 现 了 基于 深度 学 习 的 通用 人 工 智 能 的 下 一 步 。 上 8 活动 模式 在 深 
度 循 环 神经 网 络 中 只 能 被 暂时 存储 ， 这 就 很 难 对 推理 和 推 朵 进行 模拟 。 
通过 在 网 络 中 添加 一 个 稳定 的 存储 器 ， 可 以 像 数字 计算 机 内 存 一 样 灵活 
地 写 入 和 读 取 ， 研 究 人 员 展 示 了 一 个 训练 好 的 强化 学 习 网 络 ， 可 以 回答 
需要 推理 的 问题 。 例 如 ， 一 个 这 样 的 网 络 对 伦敦 地 铁路 线 做 出 了 合理 的 
规划 ， 另 一 个 则 回答 了 关于 家 谐 中 成 员 关 系 的 问题 。 动 态 记 忆 网 络 
(Dynamic Memory Networks) 也 能 够 掌握 20 世 纪 60 年 代 对 抹 省 理工 学 
院 人 工 智 能 实验 室 提 出 挑战 的 “积木 世界 ”任务 (图 2-1) 。 这 就 带 我 们 
回 到 了 第 2 章 开 始 的 地 方 。 


弗朗西斯 : 克 里 克 于 2004 年 去 世 ， 此 后 不 入 ， 羔 斯 利 : 奥 格 尔 在 2007 














年 也 去 世 了 ， 这 标志 着 索 尔 元 研究 所 一 个 时 代 的 终结 。 现 在 这 些 科 学 巨 
人 己 经 不 在 我 们 身边 了 ， 而 新 一 代 的 学 者 仍 在 向 前 近 进 。 我 在 索 尔 克 研 
究 所 工作 了 30 年 ， 相 当 于 它 一 半 的 寿命 。 我 们 的 大 家 庭 组 建 于 1960 年 ， 
所 有 的 教 职 工 都 在 同一 条 小 船上 。“ 索 尔 克 号 ”很 小 ， 小 到 每 个 人 都 认识 
对 方 。 但 即使 在 今天 ， 我 们 有 了 1000 人 的 团队 ， 它 仍然 会 带 给 我 们 一 种 
家 的 感觉 ， 也 证 明了 这 个 机 构 文化 的 持久 性 。 


我 们 是 一 个 伟大 的 生物 链 (可 以 回溯 到 细 落 出 现 之 前 〉 中 的 一 员 。 
现在 我 们 已 经 到 了 理解 大 脑 以 及 它们 是 如 何 发 展 的 边缘 ， 这 将 会 是 一 个 
奇迹 ， 能 够 永远 改变 我 们 对 上 自己 的 看 法 。 
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西 德 尼 : 布 伦 纳 (Sydney Brenner) 在 南非 出 生 并 接受 教育 ， 随 后 参 
与 了 剑桥 大 学 早期 的 分 子 遗 传 学 研究 工作 《图 18-1) 。 他 曾 与 弗朗西斯 
. 克 里 克 在 分 子 生物 学 实验 室 (LMB) 共用 一 个 办 公 室 。 如 果 是 你 ， 在 
发 现 DNA 的 结构 并 解 天 了 遗传 密码 之 后 ， 会 在 下 一 个 项 目 里 做 什么 ? oe 
里 克 决 定 把 重点 放 在 人 类 的 大 脑 上 。 布 伦 纳 开始 研究 一 种 新 模式 生物 
一 一 线虫 (C.，elegans) , XÆ- MEI mum, ALRK, 
只 有 302 个 神经 元 。 长 期 退 踪 体内 的 每 个 细胞 ， 了 解 个 体 如 何 从 一 个 胚 
胎 逐 渐 发 育成 熟 的 研究 ， 使 得 这 些 线虫 成 了 许多 突破 性 友 现 的 源头 。 布 
伦 纳 因为 这 项 研究 ， 在 2002 年 和 罗伯特 : 霍 维 奖 (H. Robert Horvitz) 、 
约翰 : 苏 尔 期 顿 (John E. Sulston) ， 共 同 分 享 了 诺 贝 尔 生 理学 或 医学 
奖 。 布 伦 纳 也 因 他 的 智慧 而 闻名 。 他 在 诺 贝 尔 获奖 者 演讲 中 ， 赞 扬 了 线 
虫 :“ 我 今天 的 演讲 题目 是 ‘大 自然 对 科学 的 恩赐 ’ (Nature's — gift — to 
Science) 。 内 容 并 不 是 关于 一 个 科学 期 刊 对 另 一 个 期 刊 的 致敬 ， 而 是 天 
于 生命 世界 的 多 样 性 如 何 启发 和 服务 于 生物 研究 领域 的 创新 。” 山 看 上 
去 西 德 尼 - 布 伦 纳 似乎 见证 了 “ 创 世 记 ”。 








图 18-1 西 德 尼 。 布 伦 纳 是 生物 学 界 的 传奇 人 物 。 他 研究 遗传 密码 ，DNA 中 碱 基 对 被 转录 成 蛋白 
质 的 方式 ， 并 因 其 对 模式 生物 的 开创 性 研究 工作 而 获得 诺 贝 尔 奖 。 这 张 照 片 来 自 2010 年 《科学 
网 络 》 对 他 的 采访 ，http://thesciencenetwork. org/ programs/the-science-studio/sydney- 


brenner-part-1. 





布 伦 纳 2009 年 在 索 尔 元 研究 所 做 过 三 场 系 列 讲座 ， 标 题 是 “阅读 人 
类 基因 组 ”(Reading the Human Genome) [2], ， 讲 座 很 精彩 ， 没 有 借助 
任何 幻灯 片 或 道具 。 他 注意 到 ， 除 了 电脑 ， 还 从 没有 人 曾经 阅读 过 整个 
人 类 基因 组 ， 一 个 个 地 检查 碱 基 对 ， 于 是 便 将 其 作为 自己 的 目标 。 在 这 
个 过 程 中 ， 他 发 现 了 不 同 的 基因 和 物种 的 DNA 序 列 之 间 有 趣 的 相似 之 
处 。 


布 伦 纳 在 全 球 多 个 研究 机 构 都 有 教 职 。 他 在 新 加 坡 有 一 个 实验 项 
H; 也 是 日 本 冲绳 理工 学 院 的 创始 校长 ;弗吉尼亚 州 阿 什 本 
(Ashburn) 附近 霍华德 . 休 斯 医学 研究 所 珍妮 和 莉 亚 研究 园区 的 高 级 研究 
员 ; 还 是 我 在 拉面 亚 索 尔 元 研究 所 领导 的 元 里 元 - 雅 各 布 理论 与 计算 生 
物 学 中 心 (Crick-Jacobs Center for Theoretical and Computational 
Biology) 的 高 级 研究 员 。 以 上 只 是 其 中 的 几 个 头衔 。 在 戴 维 马 尔 获得 
了 他 的 博士 学 位 后 ， 布 伦 纳 聘 请 马尔 在 LMB 从 事 计算 研 究 工 作 ， 后 来 布 











伦 纳 通过 自己 的 南非 朋友 西 摩尔 . 怕 普 特 ， 在 麻 省 理工 学 院 的 AI 实验 室 
为 马尔 安排 了 一 个 职位 。 分 子 遗传 学 和 神经 生理 学 之 间 的 关系 很 深 ， 而 
布 伦 纳 在 这 两 个 领域 都 处 于 中 心 位 置 。 

布 伦 纳 有 一 次 去 拉 荷 亚 的 时 候 ， 我 和 他 吃 了 顿 晚饭 ， 其 间 我 告诉 
他 ， 多 年 前 我 在 哈佛 医学 院 做 博士 后 的 时 候 听 过 一 个 故事 一 弗朗西斯 
: 克 里 克 死 后 到 了 天 堂 。 圣 彼得 看 到 这 个 坚定 的 无 神 论 者 感到 很 惊讶 ， 
但 弗朗西斯 去 天 堂 是 想 问 上 帝 一 个 问题 。 他 被 带 到 了 田野 中 的 一 个 木 棚 
里 ， 里 面 散 落 着 各 种 轮子 和 齿轮 ， 都 是 失败 的 试验 品 。 弗 朗 西 斯 看 到 上 
帝 围 着 皮质 围裙 站 在 工作 台 边 ， 正 在 修补 一 个 新 的 有 机 体 。“ 弗 朗 西 
W ERW, “ 见 到 你 真是 太 高 兴 了 。 我 可 以 为 你 做 些 什么 ? ”在 我 的 
一 生 中 ，” 弗 朗 西 斯 说 ，“ 我 都 想 知道 这 个 问题 的 答案 :为 什么 苍蝇 有 成 
dd? ”中 “亲爱 的 弗朗西斯 ，” 上 帝 回 答 道 , “这 真是 个 惊喜 ! 从 来 没有 
人 问 过 我 这 个 问题 。 我 已 经 将 成 虫 盘 放 入 苍蝇 体内 数 亿 年 了 ， 还 从 来 没 
有 听 到 过 任何 抱怨 。” 

听 完 这 个 故事 ， 布 伦 纳 没 说 话 。 我 猜想 ， 讲 这 么 一 个 贬损 他 的 亲密 
朋友 的 故事 ， 或 许 有 些 冒犯 。“ 特 里 ，” 他 说 ，“ 我 可 以 告诉 你 我 第 一 次 
磁 到 这 个 故事 的 那个 场景 。 弗 朗 西 斯 和 我 坐 在 办 公 室 里 ， 他 当时 正在 读 

本 关于 发 育 生 物 学 的 书 ， 突 然 举 起 手 说 : “上 帝 才 知道 苍蝇 为 什么 会 
ARRAL” 

我 惊 呆 了 。 找 到 你 几 十 年 前 就 听 过 ， 并 复述 了 无 数 次 的 故事 的 源头 
的 机 会 ， 有 多 少 呢 ? 我 让 布 伦 纳 告诉 我 最 初 的 版 本 。 他 说 故事 的 标题 
是 “天 堂 里 的 弗朗西斯 : 克 里 克 ”， 他 的 故事 版 本 与 我 的 版 本 有 着 相同 的 
基本 结构 ， 但 细节 却 不 尽 相同 得 就 像 进 化 过 程 一 样 ， 故 事 的 基本 
核心 不 变 ， 但 许多 细节 却 改变 了 。 

我 于 2017 年 1 月 探望 了 在 新 加 坡 的 布 伦 纳 ， 庆 祝 他 的 90 岁 生日 。 他 
因为 健康 问题 不 再 旅行 ， 还 需要 坐 在 轮椅 上 ， 但 仍 和 我 之 前 每 次 见 到 他 
时 那样 有 活力 。 西 奥 多 西 厄 斯 :多 布 赞 斯 基 (Theodosius Dobzhansky) 
经 说 过 ， 没 有 进化 论 ， 生 物 学 中 的 任何 东西 都 讲 不 通 。 司 ] 布 伦 纳 于 






































2017 年 2 月 21 日 在 新 加 坡 南 洋 理 工大 学 举行 了 一 场 关 于 细菌 进化 的 演 
讲 ， 该 演讲 是 系列 讲座 《10 个 10: 进化 编 年 史 》 (10-on-10: The 
Chronicle of Evolution) Í8l, 12017475140, 3E t EIR ZR XJ ERE 
中 做 了 关于 大 脑 进 化 的 主题 演讲 。 在 演讲 的 开头 ， 我 对 多 布 赞 斯 基 的 那 
句 话 做 了 些许 改动 : 没有 DNA， 生 物 学 中 的 任何 东西 都 讲 不 通 。 凤 | 





每 个 物种 都 有 智能 


智能 在 许多 物种 中 发 展 起 来 ， 以 解决 它们 在 环境 中 面 对 的 生存 问 
题 。 在 海洋 中 进化 的 动物 与 在 陆地 上 进化 的 动物 相 比 ， 面 临 着 许多 不 同 
的 问题 。 视 觉 感知 使 我 们 能 够 感知 周围 的 世界 ， 我 们 还 发 展 出 了 视觉 智 
能 来 解释 这 些 视 觉 信号 。 研 究 非 人 类 动物 的 自然 行为 的 动物 行为 学 家 
们 ， 已 经 在 这 些 动物 身上 发 现 了 人 类 并 不 具备 的 能 力 和 技巧 ， 如 回声 定 
位 : 蝙蝠 主动 发 出 听觉 信号 来 探测 它们 所 处 的 环境 ， 并 对 回声 进行 分 
析 。 这 创造 了 外 部 世界 的 内 部 表征 ， 所 有 表象 都 与 我 们 的 视觉 体验 一 样 
生动 。 蝙 蝠 具有 听觉 智能 ， 它 能 分 辩 来 自 鼓 翼 的 昆虫 (可 以 捕捉 ) 和 来 
自 障碍 〈 需 要 避免 ) 的 信号。 

纽约 大 学 的 哲学 家 托马斯 :内 格 尔 (Thomas Nagel) 在 1974 年 写 了 一 
篇 题 为 《成 为 一 只 蝙蝠 是 什么 感觉 ? 》 (What Is It Like to Be a Bat?) 
的 文章 ， 并 得 出 结论 ， 如 果 没 有 回声 定位 的 直接 经 验 ， 我 们 就 无 法 想象 
蝙蝠 世界 是 什么 样 的 。 加 j 但 缺乏 这 种 经 验 并 没有 妨碍 我 们 发 明 雷 达 和 
声呐 技术 〈 这 些 技术 使 我 们 能 够 积极 探索 看 不 到 的 世界 ) ， 也 不 会 阻止 
盲人 通过 适应 声音 的 反射 来 摸索 周边 的 环境 。 我 们 也 许 不 知道 成 为 一 只 
蝙蝠 是 什么 感觉 ， 但 我 们 可 以 发 展 类 蝙蝠 的 智能 ， 协 助 自动 驾驶 汽车 使 
用 雷达 和 激光 雷达 行进 。 

我 们 人 类 是 大 自然 中 学 习 方面 的 佼佼 者 。 我 们 可 以 在 更 广泛 的 领域 
中 学 得 更 快 ， 记 住 得 更 多 ， 通 过 不 断 繁 衍 所 积累 的 知识 更 是 胜 过 任何 其 





























他 物种 。 我 们 创造 了 一 种 名 为 “教育 ”的 技术 ， 以 增加 我 们 在 有 生 之 年 能 
够 学 到 的 东西 。 现 在 ， 儿 童 和 青少年 在 教室 里 度 过 了 上 自己 的 成 长 期 ， 不 
盯 学 习 着 世界 上 他 们 从 未 直接 体验 过 的 事物 。 作 为 相对 近期 的 人 类 发 
明 ， 阅 读 和 写作 需要 很 多 年 才能 掌握 。 但 是 ， 这 些 发 明 使 得 积 昧 的 知识 
能 够 传递 给 下 一 代 ， 比 如 写 书 、 印 制 再 到 阅读 这 个 流程 ， 仅 靠 口 口 相传 
古 积累 不 了 那么 多 知识 的 。 正 是 写作 、 阅 读 和 学 习 ， 而 非 说 话 ， 使 现代 
文明 成 为 可 能 。 








进化 的 起 源 


我 们 的 进化 起 源 是 什么 ? 我 在 1998 年 协助 建立 的 拉 荷 亚 人 类 起 源 小 
组 ， 最 初 是 作为 一 个 小 组 定期 举行 会 议 ， 讨 论 可 能 帮助 我 们 回答 这 个 问 
题 的 许多 证 据 ， 这 些 证 据 来 自古 生物 学 、 地 球 物理 学 、 人 类 学 、 生 物化 
学 、 遗 传 学 ， 还 有 比较 神经 科学 。 它 逐渐 吸引 了 很 多 国际 会 员 ， 并 在 
2008 年 成 为 加 州 大 学 革 友 戈 分 校 / 案 尔 元 人 类 学 学 术 研究 和 培训 中 心 
(UCSD/Salk Center for Academic Research and Training in 
Anthropogeny， 人 简称 CARTA) 。[L0 正 如 NIPS 召 集 所 有 科学 和 工程 团队 
来 了 解 神 经 计算 一 样 ， 在 探索 我 们 人 类 来 目 哪 里 ， 如 何 走 到 现在 ， 培 养 
新 一 代 思 考 者 来 寻找 这 些 古老 问题 的 答案 方面 ，CARTA 也 吸取 了 来 目 
所 有 科学 领域 的 见解 。 口 


600 万 年 前 ， 人 属 的 谱系 从 黑猩猩 的 血统 中 分 离 出 来 《图 18-2) 。 
黑猩猩 是 一 种 非常 聪明 的 物种 ， 但 黑猩猩 的 智能 与 我 们 的 完全 不 同 。 在 
试图 教授 黑猩猩 语言 基础 知识 的 尝试 中 我 们 发 现 ， 它 们 仅 能 学 会 几 百 个 
符号 ， 用 它 来 表达 简单 的 需求 ， 尽 管 以 这 种 方式 衡量 它们 的 智能 显得 有 
些 不 太公 平 。 如 果 我 们 不 得 不 在 黑猩猩 的 队伍 中 生存 下 去 ， 我 们 又 会 有 
多 好 的 表现 呢 ? 所 有 的 物种 都 和 我 们 一 样 以 目 我 为 中 心 吗 ? 























图 18-2 Z323 85 X Red dn KAA magi, AJ CAH ERAK, A $ 3855 
的 大 脑 皮 层 。 图 片 来 源 : Allman, Evolving Brains, p. 164. 





在 人 类 和 黑猩猩 之 间 存 在 的 差异 ， 可 以 在 我 们 的 DNA 中 找到 。 我 们 
知道 这 一 点 已 经 有 一 段 时 间 了 ， 人 类 的 30 亿 个 DNA 碱 基 对 中 ， 与 黑猩猩 
不 同 的 只 占 1.4%。 当 黑猩猩 的 基因 组 被 首次 测序 后 ， 我 们 认为 自己 将 能 
够 阅读 生命 之 书 ， 发 现 人 类 与 黑猩猩 有 什么 不 同 。 很 遗憾 ， 此 书 大 约 有 
90% 的 内 容 我 们 都 没有 能 力 读 懂 。 呈 4 我 们 的 大 脑 与 黑猩猩 的 大 脑 非常 
相似 ， 神 经 解剖 学 家 已 经 在 两 个 物种 中 确定 了 相同 的 脑 区 。 与 人 类 和 黑 
猩猩 在 行为 中 的 显著 差异 相 比 ， 这 两 个 物种 大 脑 之 间 的 大 部 分 差异 处 于 
分 子 水 平 ， 并 且 十 分 微妙 。 这 再 一 次 证 明了 ， 大 自然 比 我 们 聪明 。 


























人 类 终 将 解决 智能 难题 


沫 斯 利 告诉 我 ， 奥 格 尔 的 第 一 法 则 指出 ， 细 胞 中 的 每 一 个 基本 反应 
都 会 演化 出 一 种 酶 ， 来 催化 这 种 反应 。 这 种 酶 不 仅 加 速 了 反应 ， 而 且 还 
可 以 通过 与 其 他 分 子 的 相互 作用 来 调节 反应 ， 从 而 使 细胞 更 加 高 效 ， 适 
应 性 更 强 。 目 然 以 一 个 巧妙 的 反应 路 径 开 始 ， 通 过 添加 酶 和 备份 路 径 逐 
渐 改 善 这 个 路 径 。 然 而 所 有 这 些 在 缺失 核心 过 程 的 情况 下 是 无 法 工作 
的 ， 这 个 核心 过 程 对 于 细胞 来 说 就 是 DNA 的 维护 和 复制 ， 它 在 细胞 生物 
化 学 领域 中 扮演 着 “蜂王 ”的 角色 。 


单 细胞 生物 已 经 适应 了 许多 不 同 的 环境 ， 并 在 生态 中 演化 出 它们 自 
己 的 位 置 。 例 如 ， 细 菌 已 经 适应 了 极端 的 环境 -从 海底 的 高 温 液 体 喷 
口 到 南极 洲 的 冰 层 ， 以 及 更 多 温和 的 环境 ， 比 如 我 们 的 骨 肠 中 有 数 千 种 
细菌 。 像 大 肠 杆 菌 这 样 的 细菌 〈 图 18-3) 已 经 发 展 出 了 按照 梯度 游 向 食 
物 来 源 的 算法 。 由 于 细菌 太 小 ， 在 几 微 米 的 体 长 里 不 能 直接 检测 到 梯 
度 ， 于 是 就 使 用 了 趋 化 性 ， 这 涉及 周期 性 地 翻滚 并 随机 游 动 。 呈 3 站 这 看 
起 来 可 能 会 适得其反 ， 但 通过 在 高 浓度 的 地 方 将 游 动 时 间 延 长 ， 细 菌 可 
以 准确 地 按 浓度 梯度 聆 行 。 它 们 的 智能 是 一 种 原始 智能 ， 但 细菌 比 最 聪 
明 的 生物 学 家 还 要 聪明 。 这 群 最 聪明 的 生物 学 家 尚未 弄 清楚 细菌 是 如 何 
在 如 此 多 样 的 环境 中 生存 的 。 在 多 细胞 动物 中 可 以 发 现 更 复杂 的 智能 形 
式 。 
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图 18-3 KØFA KARET EMER 59H AGUiR L3 9G. REI, RADERA. if 
过 研究 它们 ， 我 们 可 以 学 到 很 多 关于 自主 智能 的 知识 。 图 片 来 源 : NIAID, NIH. 
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一 系列 的 智能 行为 ， 可 以 让 人 工 系统 从 中 学 习 。 路 越 计 算 机 科学 和 生物 
学 的 算法 生物 学 是 一 个 新 的 科学 领域 ， 寻 求 使 用 算法 的 语言 来 描述 生物 
系统 所 使 用 的 问题 解决 策略 。 我 们 和 希望， 确定 这 些 生物 算法 将 会 司 
迪 新 的 工程 计算 范式 ， 并 能 让 我 们 对 生物 网 络 有 系统 级 的 理解 。 以 上 都 
不 是 重点 ， 最 终 的 目标 是 解释 跨 空间 和 时 间 尺 度 的 生物 系统 中 构 套 的 复 
AKTE: 基因 网 络 、 代 谢 网 络 、 免 疫 网 络 、 神 经 网 络 和 社交 网 络 一 一 全 部 
都 是 网 络 。 











深 友 学 习 取 决 于 对 一 个 成 本 函数 的 优化 。 自 然 界 的 成 本 函数 是 什么 
呢 ? 进化 成 本 的 倒数 被 称 为 适应 度 ， 但 这 是 一 个 概念 ， 只 在 具体 的 约束 
条 件 下 才 有 意义 ， 无 论 约束 条 件 是 来 自 环 境 ， 还 是 来 目 要 被 优化 的 系 
统 。 在 大 脑 中 ， 有 一 些 调 节 行 为 的 固有 成 本 ， 例 如 对 食物 、 温 度 、 安 
人 全、 氧气 和 生育 的 需要 。 在 强化 学 习 中 ， 需 要 采取 行动 来 优化 未 来 的 回 
报 。 但 除了 保证 生存 的 奖励 之 外 ， 从 人 类 令 人 眼花 综 乱 的 行为 中 可 以 看 
出 ， 还 有 各 种 各 样 其 他 的 奖励 可 以 被 优化 。 是 不 是 一 些 潜在 的 通用 成 本 
函数 导致 了 这 种 多 样 性 呢 ? 


我 们 仍 在 寻找 骏 露 乔 能 最 遍 形 态 秘密 的 核心 概念 。 我 们 已 经 确定 了 
一 些 关 键 原则 ， 但 是 却 没有 一 个 概念 框 染 能 像 DNA 解 释 生 命 本 质 那 样 ， 
优雅 地 解释 大 脑 如 何 运转 。 学 习 算 法 是 寻找 统一 概念 的 好 地 方 。 也 许 ， 
我 们 在 理解 深度 学 习 网 络 如 何 解 决 实际 问题 方面 取得 的 进展 ， 将 引出 更 
多 线索 。 我 们 可 能 会 及 现 细胞 和 大 脑 中 使 进化 成 为 可 能 的 操作 系统 。 如 
果 我 们 能 解决 这 些 问题 ， 就 可 能 会 有 想象 不 到 的 收获 。 上 自然 可 能 比 我 们 
每 一 个 人 者 更 聪明 ， 但 作为 一 个 物种 ， 我 并 不 认为 人 类 无 法 解决 智能 难 


题 。 
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附录 一 
致谢 


我 工作 的 索 尔 元 生物 研究 所 是 一 个 与 众 不 同 的 地 方 。 从 外 面 看 ， 它 
就 像 一 个 混凝土 堡垒 ， 但 是 当 你 进入 中 央 许 院 时 ， 会 看 到 一 大 片 石灰 宕 
延伸 到 太平 洋 ， 两 侧 高 答 的 塔 架 让 这 美 轮 美 锋 的 景色 定格 在 你 的 眼前 
(图 1) 。 岂 我 的 实验 室 在 南 楼 ， 位 于 庭院 外 (照片 左 侧 ) 。 你 在 入 口 
处 左边 的 墙 上 会 看 到 一 张 电 子 显微镜 下 的 海马 体 的 照 厂 ， 它 看 起 来 像 一 
Ae AA TN BATA; 入 口 通 癌 条 室 ， 那 里 是 计算 机 神经 后 物 学 实验 室 
的 心脏 。 

世界 上 最 杰出 的 一 些 科 学 家 ， 包 括 弗 明 西 斯 : 殉 里 克 ， 很 喜欢 与 学 
生 和 同事 围 着 圆 形 的 白色 茶 桌 讨论 各 种 科学 问题 〈 图 2) 2 SESE, 8 
室 还 出 现在 了 克 里 克 的 著作 《惊人 的 假说 》 (The Astonishing 
Hypothesis) 中 : 

















特 里 。 谢 诺 夫 斯 基 在 索 尔 克 研究 所 的 团队 ， 在 本 周 的 大 多 数 午 
餐 后 都 会 举行 非 正式 的 茶会 。 这 些 茶 会 是 讨论 最 新 实验 结果 ， 抛 出 
新 的 想法 ， 或 只 是 聊 聊 科学 、 政 治 或 新 闻 的 理想 场合 。 有 一 天 我 去 
喝 茶 ， 并 向 帕 特 。 详 奇 兰 德 和 特 里 。 谢 诺 夫 斯 基 宣布 ， 我 发 现 意愿 
诞生 的 位 置 了 ! 它 位 于 或 靠近 前 扣 带 回 。 与 安东尼 奥 。 达 马 西 奥 讨 
论 此 事 时 ， 我 发 现 他 也 有 同样 的 想法 。[21 
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建筑 是 一 座 科 学 的 圣 殿 ， 也 是 我 每 天 上 班 的 地 方 。 图 片 来 源 : Kent Schnoeker, K RÆ 
究 所 。 





我 尤其 记得 ， 克 里 克 在 1989 年 与 比 阿 特 丽 斯 :哥伦布 一 起 喝 茶 的 那 
天 。 他 告诉 我 ， 比 阿 特 丽 斯 想 从 事 神经 网 络 的 研究 工作 ， 我 应 该 雇用 
她 。 思 ] 比 阿 特 丽 斯 是 加 州 大 学 圣迭戈 分 校 的 一 名 医学 博士 生 ， 读 研究 
生 的 时 候 曾 与 克 里 克 一 起 短暂 工作 过 一 段 时 间 。 她 曾 想 把 神经 网 络 作为 
她 的 博士 论文 项 目 ， 但 这 违反 了 生物 系 的 规定 。 我 接受 了 克 里 克 的 建 
议 ， 我 们 彼此 都 从 对 方 那里 学 到 了 很 多 。 自 我 们 于 1990 年 在 加 州 理工 学 
院 的 Athenaeum 宴 会 厅 举 行 婚礼 以 来 ， 我 一 直 在 向 她 学 习 。 

从 我 在 约翰 . 霍 普 金 斯 大 学 任教 开始 ， 茶 桌 就 一 直 陪 伴 着 我 。 我 于 
1981 年 在 托马斯 :詹金斯 生物 物理 系 从 事 的 第 一 份 工作 中 ， 为 我 的 新 实 
验 室 购买 的 第 一 件 家 具 就 是 茶 桌 。 该 科 系 就 像 一 个 历史 悠久 的 大 家 庭 ， 




















而 我 是 年 轻 的 宠儿 ， 他 们 让 我 有 信心 在 新 的 方向 发 展 ， 对 此 我 永远 心 存 
感激 。 作 为 哈佛 医学 院 神 经 生物 学 系 的 博士 后 ， 我 保留 了 下 午 杂 传统 。 
在 一 个 庞大 而 多 样 的 科 系 里 ， 这 是 一 种 让 大 家 保持 联系 并 了 解 实验 进展 
的 方法 。 我 在 索 尔 克 研 究 所 的 实验 室 是 一 个 微型 大 学 ， 拥 有 来 自 科 学 、 
数学 、 工 程 和 医学 等 不 同 专业 背景 的 学 生 ， 下 午 条 时 间 是 我 们 大 集体 团 
聚 的 时 间 。 








图 2 2010 年 索 尔 克 研 究 所 计算 神经 生物 学 实验 室 (CNL) 的 茶室 。 日 常 茶会 一 直 是 本 书 描 述 的 许 
多 学 习 算 法 和 科学 发 现 的 社交 孵化 器 。 图 片 来 源 : 索 尔 克 生 物 研究 所 。 





我 很 幸运 。 我 的 父母 很 重视 教育 ， 从 小 就 十 分 信任 我 ;我 生活 在 前 
所 未 有 的 经 谤 增长 和 过 地 机 会 的 时 代 ， 这 开阔 了 我 的 视野 ， 我 的 导师 和 
合作 者 慷慨 地 分 享 了 他 们 的 见解 和 建议 ;我 有 笠 与 一 代 极 其 优秀 的 学 生 
一 起 工作 。 我 特别 感谢 杰 弗 里 : 注 顿 、 约 翰 : 霍 普 菲 尔 德 、 布 鲁 斯 : 奈 特 
(Bruce Knight) . WES JERY Ww Wp ae oe (Michael 
Stimac) 和 约翰 : 惠 勒 (John Wheeler) ， 同 样 也 感谢 我 的 岳父 所 罗 门 : 哥 


伦 布 ， 他 们 在 我 职业 生涯 的 各 个 转折 点 帮助 我 选择 了 正确 的 方向 。 比 阿 
特 丽 斯 具有 批判 性 思维 ， 我 从 她 那里 学 到 了 如 何 避 免 群体 思维 。 仅 仅 因 
为 每 个 人 都 相信 和 茶 种 解释 ， 并 不 能 证 明 它 就 是 真理 。 有 时 需要 花费 整整 
一 代 人 的 时 间 ， 才 能 从 群体 中 剔除 一 个 普 损 持 有 的 信念 。 


同时 ， 我 还 要 感谢 在 本 书 的 写作 过 程 中 帮助 过 我 的 其 他 人 。 与 长 期 
合作 者 由 特 里 夏 . 丘 奇 兰 德 和 “科学 网 络 ” 的 创始 人 罗 杰 . 宾 汉 姆 (Roger 
Bingham) 在 网 上 进行 的 探讨 ， 为 本 书 的 写作 提供 了 灵感 。 约 骑 : 多 伊 尔 
(John Doyle) 对 控制 理论 的 洞 见 局 发 了 我 对 大 脑 操 作 系 统 的 讨论 。 与 
JLE- We He) (Cary Staller) 在 瑞士 殉 洛 斯 特 斯 和 达 沃 斯 附近 山上 的 徒步 
旅行 ， 帮 我 理 清 了 对 算法 空间 的 理解 。 芭 芭 拉 : 奥 克 利 教会 我 如 何 接触 
到 课 特 以 外 的 受众 。 凯 里 和 东 东 拉 痢 帮助 我 塑造 了 讲述 深度 学 习 故 事 的 
方式 。 还 有 很 多 人 为 本 书 提 供 了 宝 贯 的 反馈 和 建议 ， 他 们 包括 : Yoshua 
Bengio, Sydney Brenner, Andrea Chiba, Gary Cottrell, Rodney 











Douglas, Paul Ekman, Michaela Ennis, Jerome Feldman, Adam 
Gazzaley, Geoffrey Hinton, Jonathan C. Howard, Irwin Jacobs, Scott 
Kirkpatrick, Mark# Jack Knickrehm, Te-Won Lee, James McClelland, 
Saket Navlakha, Barbara Oakley, Tomaso Poggio, Charles Rosenberg, 
David Silver, James Simons, Marian Stewart-Bartlett, Richard Sutton, 
Paula Tallal, Gerald Tesauro, Sebastian Thrun, Ajit Varki, Massimo 
Vergassola, Stephen Wolfram《〈 他 也 为 本 书 的 书 名 提供 了 建议 ) ， 以 及 


Steven Zucker. 


自 1984 年 以 来 ， 伍 兹 霍 尔 计算 神经 科学 研讨 会 每 年 夏天 都 会 举行 一 
次 ， 其 中 有 一 小 部 分 核心 成 员 和 新 的 参与 者 在 早上 和 晚上 会 进行 深入 讨 
论 ， 下 午 是 留 给 大 家 做 户外 活动 的 自由 时 间 一 一 多 么 完美 的 安排 。 这 个 
研讨 会 的 成 员 都 拥有 了 杰出 的 职业 生涯 。 伍 兹 霍 尔 研讨 会 一 直 持 续 到 今 
天 ， 但 于 1999 年 转移 到 特 柳 赖 德 ， 和 年 度 神经 形态 工程 研讨 会 一 起 举 
办 。 我 感谢 过 去 三 十 年 来 参加 这 些 研 讨 会 的 所 有 人 ， 特 别 是 John 
Allman, Dana Ballard, Robert Desimone, John Doyle, Katalin 
Gothard, Christof Koch, John Maunsell, William Newsome, Barry 





Richmond, Michael Stryker， 和 Steven Zucker. 
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的 有 创业 和 合作 精神 的 研究 人 员 ， 他 们 正在 创造 生物 医学 科学 的 未 来 。 
加 州 大 学 圣迭戈 分 校 神 经 计算 研究 所 的 教师 和 学 生 ， 在 我 1990 年 创 所 以 
来 ， 以 我 从 未 想象 过 的 方式 整合 了 神经 科学 和 计算 。 


索 尔 克 人 研究 所 的 计算 神经 生物 学 实验 室 在 过 去 的 三 十 年 里 一 直 是 我 
的 家 ， 我 的 许多 学 术 弟 子 已 经 离开 ， 在 全 世界 继续 首选 勃发 展 的 职业 生 
涯 。 一 个 实验 室 就 像 一 个 家 许 ， 几 代 热 情 的 研究 生 和 博士 后 大 大 丰富 了 
我 的 生活 。 我 的 实验 室 管理 员 罗 丝 玛 丽 : 米 勒 (Rosemary Miller) 和 玛丽 
: 艾 伦 : 佩 里 (Mary Ellen Perry) 精心 地 照顾 着 实验 室 。 玛 丽 : 艾 伦 在 过 去 
的 十 年 中 一 直 担 任 NIPS 的 董事 总 经 理 ， 李 :坎贝尔 (Lee Campbell) 开发 
了 一 个 计算 机 平台 ， 使 我 们 能 够 将 会 议 规模 扩大 十 倍 。 

我 很 感谢 且 省 理工 学 院 出 版 社 ， 四 十 年 来 它 一 直 是 我 可 靠 的 合作 伙 
伴 ， 出 版 了 我 和 托 马 索 - 波 吉 奥 编 辑 的 一 套 关 于 计算 神经 科学 的 从 书 ; 
我 于 1989 年 创立 的 期 刊 《 神 经 计算 》 (Neural Computation) ; 我 于 
1992 年 出 版 的 书 《 计 算 大 脑 》 (The Computational Brain) ; 以 及 其 他 
人 写 的 一 些 关 于 机 器 学 习 的 基础 书籍 ， 比 如 理 查 德 : 萨 顿 和 安德鲁 : 巴 托 
的 《强化 学 习 导 论 》 (Reinforcement Learning: An Introduction) , FE 
:上古 德 费 洛 、 约 书 亚 : 本 吉 奥 和 亚 伦 : 库 维尔 (Aaron Courville) 联合 撰写 
的 该 领域 最 重要 的 教科 书 《 深 度 学 习 》。 厂 省 理工 学 院 出 版 社 的 罗伯特 
普 赖 尔 (Robert Prior) 在 本 书 漫长 的 出 版 过 程 中 ， 也 对 本 书 的 写作 提 
供 了 指导 。 

我 还 要 感谢 NIPS 社 区 ， 没 有 他 们 ， 我 就 无 法 写 出 这 本 《深度 学 
习 》， 本 书 远 没 有 涵盖 这 个 领域 的 全 面 历 史 ， 它 只 关注 了 几 个 主题 和 参 
与 神经 网 络 研 究 的 一 些 人 。 国 际 神经 网 络 协会 的 期 刊 《 神 经 网 络 》 一 直 
是 扩大 神经 网 络 研究 范围 的 坚强 后 盾 。 该 协会 与 IEEE 人 合作， 每 年 举办 一 
次 神经 网 络 国际 联合 会 议 。 机 器 学 习 也 众生 了 许多 优秀 的 会 议 ， 包 括 国 
际 机 器 学 习 会 议 (ICML) ， 这 是 NIPS 的 姊妹 会 议 。 这 个 领域 极 大 地 受 


























惠 于 来 目 所 有 这 些 组 织 ， 以 及 对 其 做 出 贡献 的 研究 人 员 。 


在 2018 年 长 滩 NIPS 的 开幕 式 上 ， 我 对 NIPS 的 发 展 表达 了 惊叹 : “我 
在 30 年 前 第 一 次 参加 NIPS 会 议 时 从 来 没有 想到 ， 今 天 会 站 在 这 里 ， 面 对 
着 8000 名 与 会 者 发 表演 讲 一 一 我 当时 以 为 这 个 会 议 只 能 持续 10 年 。” 我 
于 2016 年 4 月 访问 了 现 居 加 州 山 景 城 (Mountain View) WARRE Æ 
Bi. “KKK” (Google Brain) 团队 占据 了 一 栋 大 楼 的 一 整个 楼 层 。 
我 和 杰 弗 里 一 起 回顾 过 去 的 日 子 ， 得 出 了 我 们 已 经 赢得 胜利 的 结论 ， 但 
花费 的 时 间 比 我 们 预期 的 要 长 得 多 。 在 这 个 过 程 中 ， 杰 弗 里 入 选 了 英 格 
兰 和 加 拿 大 星 家 学 会 。 我 也 被 选 为 美国 国家 科学 院 、 国 家 医学 院 、 国 家 
工程 院 、 国 家 发 明 家 科学 院 和 国家 艺术 与 科学 学 院 院士 ， 这 些 都 是 难得 
的 荣誉 。 我 非常 感谢 杰 弗 里 : 辛 顿 多 年 来 和 我 分 享 他 对 网 络 计算 的 见 
解 。 

作为 普林斯顿 大 学 的 研究 生 ， 我 曾经 致力 于 研究 爱 因 斯 坦 的 引力 理 
论 ， 广 义 相 对 论 中 的 黑洞 和 引力 波 。 然 而 ， 在 获得 我 的 物理 学 博士 学 位 
之 后 ， 我 的 研究 领域 转向 了 神经 生物 学 ， 大 脑 自 那 时 起 就 引起 了 我 的 兴 
趣 。 我 还 不 知道 我 的 第 三 次 转变 可 能 是 什么 。 所 罗 门 :哥伦布 曾经 告诉 
我 ， 所 谓 事业 ， 只 能 用 来 追溯 ， 我 在 写 这 本 书 时 也 确认 了 这 一 点 。 回 顾 
过 去 ， 我 发 现 了 那些 让 我 走 到 今天 这 一 步 的 事件 和 决定 ， 当 然 ， 当 时 的 
我 对 这 一 切 还 一 无 所 知 。 





























[1] 参阅 Sarah Williams Goldhagen, Louis Kahn's Situated Modernism(New Haven:Yale 
University Press, 2001). 


[2] Francis Crick, The Astonishing Hypothesis: The Scientific Search for the Soul. (New York: 
Scribner's Sons, 1994), 267. 
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附录 二 
词汇 表 


目 适 应 信号 处 理 Cadaptive signal processing) : 提高 信号 质量 的 
方法 ， 例 如 自动 粒度 控制 ， 或 可 自动 降低 噪声 的 可 调节 滤波 器 。 


算法 (algorithm) : 一 个 列 出 了 具体 操作 步骤 的 说 明 ， 你 可 以 按 

又 来 实现 一 个 目标 ， 就 像 对 照 沫 谱 烘焙 和 蛋 糙 一 样 。 

反 传 〈 或 误差 反 向 传播 ) [backprop (backpropagation of 
errors) ] : 通过 梯度 下 降 来 优化 神经 网 络 的 学 习 算 法 ， 以 最 小 化 代价 
函数 的 值 并 提高 网 络 性 能 

贝 叶 斯 规则 (Bayes's rule) : 基于 新 数据 和 与 事件 相关 条 件 的 先 
验 知识 ， 人 更 一 般 地 说 ， 贝 叶 斯 概率 是 对 当 
前 和 先 验 数据 产生 结果 的 信念 

玻 尔 效 曼 机 (Boltzmann machine) : 一 种 神经 网 络 模型 ， 由 相互 
作用 的 三 进 制 单元 组 成 ， 其 中 单元 处 于 活跃 状态 的 概率 取决 于 其 整合 的 
突 触 输 入 。 该 模型 以 19 志 纪 物理 学 家 路 德 维 希 : 玻 尔 兹 曼 命 名 ， 他 是 统 
i ZEB SS X. 

约束 条 件 〈constraints) : 让 最 优化 问题 的 解决 方案 必须 满足 的 保 
证 其 值 为 正 的 条 件 。 

卷 积 〈convolution ) : 通过 计算 一 个 函数 与 男 一 个 函数 相对 移 位 的 

重 登 量 ， 将 两 个 函数 进行 混合 。 


代价 函数 (cost function) : 用 来 指定 网 络 目的 并 衡量 其 性 能 表现 








的 函数 。 学 习 算 法 的 目的 是 降低 代价 函数 的 值 。 
数字 助理 (digital assistant) : 用 以 辅助 完成 任务 的 虚拟 助理 ， 比 
如 亚马逊 智能 音箱 Echo 中 的 语音 助理 Alexa。 


周期 Cepoch) : 学 习 过 程 中 ， 从 指定 数量 的 样本 中 计算 出 平均 梯 
上 度 后 神经 网 络 中 权重 的 更 新 。 

平衡 (equilibrium) : 热力 学 状态 ， 其 中 没有 物质 或 能 量 的 净 宏 观 
流动 。 在 玻 尔 效 受 机 中 ， 神 经 单元 状态 是 概率 性 的 ， 当 输入 保持 不 变 
时 ， 系 统 会 最 终 稳定 在 平衡 状态 。 

反馈 (feedback) : 神经 网 络 中 由 高 /后 层 流向 低 / 前 层 神经 元 的 连 
接 ， 这 种 连接 使 信号 在 网 络 中 形成 了 环流 。 

前 馈 网 络 (feedforward network) : 一 种 多 层 神 经 元 网 络 ， 其 中 
各 层 神 经 元 之 间 的 连接 是 单 同 的 ， 从 输入 层 开 始 ， 到 输出 层 结束 。 


梯度 下 降 (gradient descent) : 一 种 以 降低 代价 函数 为 目的 的 优化 
方法 ， 在 每 个 周期 中 都 会 对 参数 进行 调整 ， 代 价 函 数 用 来 衡量 网 络 模型 
的 性 能 。 

EIERE (Hopfield net) : 由 约翰 : 霍 普 菲 尔 德 发 明 的 全 连 
接 神 经 网 络 模型 ， 根 据 不 同 的 输入 状态 ， 该 模型 都 能 保证 收敛 成 固定 的 
吸引 子 形态 ， 可 以 用 来 存储 和 提取 信息 。 对 该 网 络 进行 过 探讨 的 文章 有 
上 于 篇 。 

学 习 算 法 〈learning algorithm) : 基于 样本 来 调整 函数 参数 的 算 
法 。 同 时 提供 了 输入 和 目标 输出 样本 的 是 监督 算法 ， 仅 提供 输入 样本 的 
是 无 监督 算法 。 强 化 学 习 是 监督 学 习 算 法 的 一 种 ， 仅 对 好 的 表现 进行 奖 
励 。 

逻辑 (logic) : 基于 结果 仪 为 真 或 假 的 假设 的 数学 推断 。 数 学 家 用 
逻辑 来 证 明定 理 。 

机 器 学 习 (machine learning) : 计算 机 科学 的 一 个 分 文学 科 ， 让 

















计算 机 从 数据 中 学 习 如 何 完成 任务 ， 而 不 对 其 提供 明确 的 程序 设 定 。 


=P (millisecond) : 一 秒 的 千 分 之 一 〈0.001 秒 ) , BD— Tr EY 
调 的 一 个 周期 。 


大 规模 开放 式 在 线 课程 (massive open online course, MOOC) : 
互联 网 上 各 色 主 题 的 免费 课程 。 第 一 门 MOOC 诞 生 于 2006 年 ， 到 2018 年 
1 月 ， 网 上 大 约 有 9400 门 不 同 的 MOOC， 拥 有 约 9100 万 学 习 者 。 


神经 元 (neuron) : 一 种 特异 化 的 大 脑 细 胞 ， 整 合 其 他 神经 元 的 输 
出 作为 输入 ， 并 将 输出 信号 传递 给 其 他 神经 元 。 


归 一 化 (normalization) : 将 信号 的 振幅 稳定 在 固定 范围 内 。 一 种 
将 随时 间 变 化 的 正 值 信 号 进行 标准 化 的 方式 ， 即 用 该 信号 除 以 其 自身 的 
最 大 值 ， 使 归 一 化 的 信号 被 限定 在 0 和 1 之 间 。 

优化 Coptimization) : 从 提供 的 输入 集合 中 系统 地 选取 输入 值 的 
过 程 ， 以 找到 函数 的 最 大 或 最 小 输出 值 。 


TEME (overfitting〉: 当 一 个 网 络 模型 中 可 调整 参数 的 数量 远 
大 于 训练 数据 的 数量 ， 并 且 该 算法 使 用 了 过 多 参数 来 匹配 这 些 样本 时 ， 
经 过 训练 的 学 习 算 法 所 达到 的 状态 。 虽 然 过 度 拟 合 大 大 降低 了 网 络 适 应 
新 样本 的 能 力 ， 但 可 以 通过 正则 化 来 降低 这 种 负面 影响 。 

感知 器 (perceptron) : 一 个 简单 的 神经 网 络 模型 ， 由 一 个 神经 元 
和 一 系列 带 有 可 变 权重 的 输入 组 成 ， 可 以 通过 训练 来 对 输入 进行 分 类 。 

可 塑性 (plasticity〉: 神经 元 对 其 功能 的 改变 ， 如 连接 强度 的 改变 
4“ 突 触 可 塑性 >) ， 或 对 其 输入 的 啊 应 [“ 本 征 可 塑性 ”(intrinsic 
plasticity) ] 。 

概率 分 布 (probability distribution) : 指定 了 实验 中 系统 或 结 
的 所 有 可 能 状态 发 生 的 概率 的 函数 。 

循环 网 络 (recurrent network) : 拥有 反馈 连接 ， 人 允许 信号 在 其 中 
循环 流动 的 神经 网 络 。 





正则 化 (regularization) : 在 训练 数据 有 限 的 情况 下 ， 防 止 具 有 许 
多 参数 的 网 络 模型 友 生 过 度 拟 合 的 方法 。 例 如 权重 衰减 ， 即 网 络 中 所 有 
的 权 值 在 训练 的 每 个 周期 都 会 减 小 ， 只 有 有 共有 较 大 正 梯 度 的 权 值 被 保 
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缩放 性 〈scaling) : 对 算法 的 复杂 程度 如 何 随 着 问题 的 大 小 而 变化 
的 判断 标准 。 例 如 ，n 个 数 相 加 的 复杂 上 度 缩放 性 为 nD， 但 是 n 个 数 所 有 两 
数 配 对 相 乘 的 复杂 度 缩放 性 为 nm 。 

Fam)” (skunk works) : 一 个 小 组 在 某 个 组 织 内 以 高 度 自 治 的 
方式 从 事 高 级 别 或 秘密 项 目 。 借 鉴 了 漫 国 作品 《丛林 小 子 》 Lil 
Abner) 中 月 光 工 广 的 名 称 。 

稀疏 原理 (sparsity principle) : 对 信号 的 稀疏 表征 ， 如 脑 电 图 
(EEG) 和 功能 磁 共 振 成 像 (fMRI) ， 用 少量 固定 基 函 数 的 加 权 和 来 近 
似 信号 。 这 些 基 函 数 在 独立 分 量 分 析 Cindependent component analysis) 
中 被 称 为 信 源 。 在 一 组 神经 元 中 ， 对 一 个 输入 的 稀 疏 表征 是 指 只 有 少数 
神经 元 高 度 活 跃 的 情况 。 这 可 以 减少 来 自 表 示 其 他 输入 的 活动 模式 的 干 
pi. 

WREE Cspine) : ATAR EAC AR OS. Fe SIS HY R fih 
后 部 位 。 

突 触 (synapse) : 两 个 神经 元 之 间 的 特异 化 连接 部 位 ， 信 号 从 突 
触 前 神经 元 传递 到 突 触 后 神经 元 。 

训练 和 测试 集 (training and test sets) : 基于 训练 集 的 表现 并 不 能 
很 好 地 评估 神经 网 络 在 新 输入 上 执行 的 效果 ， 但 训练 期 间 未 使 用 的 测试 
集 则 可 以 对 网 络 性 能 进行 评估 。 当 数据 集合 很 小 时 ， 可 以 使 用 训练 集 之 
外 的 单个 样本 ， 对 使 用 其 余 样 本 进行 训练 的 网 络 进行 性 能 测试 ， 并 且 对 
每 个 样本 重复 该 过 程 以 获得 平均 测试 性 能 。 这 是 n=1 时 的 交叉 验证 的 特 
例 ， 其 中 nn 个子 样本 被 保留 作为 测试 集 而 非 训练 集 。 

图 灵机 (Turing machine) : 由 阿兰 :图 灵 于 1937 年 发 明 的 一 种 假 














想 的 ， 可 以 用 来 做 数学 计算 的 简单 计算 机 模型 。 图 灵机 包括 一 个 可 以 前 
后 移动 的 “磁带 ”， 磁 带 修 划分 为 一 个 接 一 个 的 单元 ， 一 个 具有 “ 状 

态 ” 的 “磁头 ”"， 可 以 改变 其 下 活动 单元 的 属性 ， 以 及 一 套 关 于 磁头 如 何 
修改 活动 单元 格 并 移动 磁带 的 指令 。 在 每 个 步骤 中 ， 机 器 可 以 修改 活动 
单元 格 的 属性 并 更 改 磁头 的 状态 ， 之 后 再 将 磁带 移动 一 个 单元 。 
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